一人で始めるKaggle - 一人で始めるプログラミング

お久しぶりです。Arkです。

最近大学４年生に進級いたしまして、ついに研究室に配属されました！！！

しかしコロナの影響で、少なくとも夏までは研究室どころか大学にすら入れません。

まあ、時間を持て余しても仕方がないのでKaggleを始めてみました。

例のごとく、超初心者向けです。

Kaggleの始め方

まずはPythonを使えるように開発環境を整えないといけません。私は「やさしいPython」という本の最初に書いてあったJupyter Notebookというものをインストールして使っています。Jupyter Notebookと検索して出てくる一番上のサイトに書いてありますが、「Jupyter notebook ご存知ですか？知ってますよね？そう、機械学習やらPython周りのイケてるエンジニアが使っているアレです。」とのことなので、これをインストールすれば間違いないです。ちなみにこれは、インタラクティブ形式なので一行ずつコードを実行することができてとても便利です！JupyterNotebookの画面をプログラマーっぽくする方法についてもブログを書いたので、良ければご覧ください。

アカウントを作る

こちらからアカウントを作りましょう。

入門用のとっても簡単な問題に挑戦してみよう

とても簡単な問題の一つに、「Titanic」というのがあります。そう、あの有名なタイタニック号をモチーフにした問題です。客の名前や性別といったデータを分析して誰が生きるか？死ぬか？を予測するものです。楽しそう。

実際にやってみよう

このブログを見ながらやってみてください（丸投げ）。とてもまとまっています。

初心者の私ならではの疑問と解説をしていこうと思います。上記のブログと照らし合わせながらお読みください。

疑問例

CSV格納先のディレクトリってどうやって指定するんだ？？
Numpyってなんだい？
Pandasってなに
isnull()ってなに。どうやって使うの
木を作った後にpd.DataFrame(A,B,column=...)っていろんな変数出てきたけどなに
二つ目の木で出てくるDecisionTreeClassifier(.....)の変数って何。どういう意味

とまあ、色々と出てきてしまいました...色々調べたので解説していきます。

これは私がOneDriveにファイルを突っ込んでやろうとしていたのでできませんでした（たぶんできると思うんですけどわからないので教えてください）。とりあえず動いたらいいと思ったので、Cドライブの中にKaggleというファイルを作りました。コードはこんな感じで書きました。

train = pd.read_csv("C:/Kaggle/train.csv")
test = pd.read_csv("C:/Kaggle/test.csv")
NumpyとはPythonにおいて数値計算を効率的にしてくれるものだそうです。便利グッズぐらいの認識でいいのかなと。
PandasとはPythonにおいてデータ解析を支援するものだそうです。これも便利グッズ！
isnull()というのは、Pandasのライブラリに入っている欠損を見つけるものです。こちらにうまくまとまってました。
DataFlameは二次元配列の一種だそうです。こちらがとても分かりやすかったです。
木を作るときに色々と条件を設定するようです。初期設定は中々ダメな感じになっているので。変更すると過学習を防げるようです。こちらが分かりやすかったです。

以上でKaggle入門を終わりたいと思います。結構長い文章になっちゃいました。

いや～～私もようやくAIの領域に踏み入れたんだな～と喜んでいます。これからも初心者目線から何か書いていけたらなと思っています。読了ありがとうございました。

追記:

こちらをみて改良したところ、scoreが0.80382となり、向上しました。