一人で始めるKaggle
お久しぶりです。Arkです。
最近大学4年生に進級いたしまして、ついに研究室に配属されました!!!
しかしコロナの影響で、少なくとも夏までは研究室どころか大学にすら入れません。
まあ、時間を持て余しても仕方がないのでKaggleを始めてみました。
例のごとく、超初心者向けです。
- Kaggleの始め方
まずはPythonを使えるように開発環境を整えないといけません。私は「やさしいPython」という本の最初に書いてあったJupyter Notebookというものをインストールして使っています。Jupyter Notebookと検索して出てくる一番上のサイトに書いてありますが、「Jupyter notebook ご存知ですか? 知ってますよね?そう、機械学習やらPython周りのイケてるエンジニアが使っているアレです。」とのことなので、これをインストールすれば間違いないです。ちなみにこれは、インタラクティブ形式なので一行ずつコードを実行することができてとても便利です!JupyterNotebookの画面をプログラマーっぽくする方法についてもブログを書いたので、良ければご覧ください。
- アカウントを作る
こちらからアカウントを作りましょう。
- 入門用のとっても簡単な問題に挑戦してみよう
とても簡単な問題の一つに、「Titanic」というのがあります。そう、あの有名なタイタニック号をモチーフにした問題です。客の名前や性別といったデータを分析して誰が生きるか?死ぬか?を予測するものです。楽しそう。
- 実際にやってみよう
このブログを見ながらやってみてください(丸投げ)。とてもまとまっています。
初心者の私ならではの疑問と解説をしていこうと思います。上記のブログと照らし合わせながらお読みください。
疑問例
- CSV格納先のディレクトリってどうやって指定するんだ??
- Numpyってなんだい?
- Pandasってなに
- isnull()ってなに。どうやって使うの
- 木を作った後にpd.DataFrame(A,B,column=...)っていろんな変数出てきたけどなに
- 二つ目の木で出てくるDecisionTreeClassifier(.....)の変数って何。どういう意味
とまあ、色々と出てきてしまいました...色々調べたので解説していきます。
- これは私がOneDriveにファイルを突っ込んでやろうとしていたのでできませんでした(たぶんできると思うんですけどわからないので教えてください)。とりあえず動いたらいいと思ったので、Cドライブの中にKaggleというファイルを作りました。コードはこんな感じで書きました。
- NumpyとはPythonにおいて数値計算を効率的にしてくれるものだそうです。便利グッズぐらいの認識でいいのかなと。
- PandasとはPythonにおいてデータ解析を支援するものだそうです。これも便利グッズ!
- isnull()というのは、Pandasのライブラリに入っている欠損を見つけるものです。こちらにうまくまとまってました。
- DataFlameは二次元配列の一種だそうです。こちらがとても分かりやすかったです。
- 木を作るときに色々と条件を設定するようです。初期設定は中々ダメな感じになっているので。変更すると過学習を防げるようです。こちらが分かりやすかったです。
以上でKaggle入門を終わりたいと思います。結構長い文章になっちゃいました。
いや~~私もようやくAIの領域に踏み入れたんだな~と喜んでいます。これからも初心者目線から何か書いていけたらなと思っています。読了ありがとうございました。
追記:
こちらをみて改良したところ、scoreが0.80382となり、向上しました。