一人で始めるKaggle

 お久しぶりです。Arkです。

最近大学4年生に進級いたしまして、ついに研究室に配属されました!!!

しかしコロナの影響で、少なくとも夏までは研究室どころか大学にすら入れません。

まあ、時間を持て余しても仕方がないのでKaggleを始めてみました。

 

例のごとく、超初心者向けです。

 

  • Kaggleの始め方

まずはPythonを使えるように開発環境を整えないといけません。私は「やさしいPython」という本の最初に書いてあったJupyter Notebookというものをインストールして使っています。Jupyter Notebookと検索して出てくる一番上のサイトに書いてありますが、「Jupyter notebook ご存知ですか? 知ってますよね?そう、機械学習やらPython周りのイケてるエンジニアが使っているアレです。」とのことなので、これをインストールすれば間違いないです。ちなみにこれは、インタラクティブ形式なので一行ずつコードを実行することができてとても便利です!JupyterNotebookの画面をプログラマーっぽくする方法についてもブログを書いたので、良ければご覧ください。

 

  • アカウントを作る

こちらからアカウントを作りましょう。

 

  • 入門用のとっても簡単な問題に挑戦してみよう

とても簡単な問題の一つに、「Titanic」というのがあります。そう、あの有名なタイタニック号をモチーフにした問題です。客の名前や性別といったデータを分析して誰が生きるか?死ぬか?を予測するものです。楽しそう。

 

  • 実際にやってみよう

このブログを見ながらやってみてください(丸投げ)。とてもまとまっています。

 

初心者の私ならではの疑問と解説をしていこうと思います。上記のブログと照らし合わせながらお読みください。

 

疑問例

  1. CSV格納先のディレクトリってどうやって指定するんだ??
  2. Numpyってなんだい?
  3. Pandasってなに
  4. isnull()ってなに。どうやって使うの
  5. 木を作った後にpd.DataFrame(A,B,column=...)っていろんな変数出てきたけどなに
  6. 二つ目の木で出てくるDecisionTreeClassifier(.....)の変数って何。どういう意味

 

とまあ、色々と出てきてしまいました...色々調べたので解説していきます。

 

  1. これは私がOneDriveにファイルを突っ込んでやろうとしていたのでできませんでした(たぶんできると思うんですけどわからないので教えてください)。とりあえず動いたらいいと思ったので、Cドライブの中にKaggleというファイルを作りました。コードはこんな感じで書きました。

     train = pd.read_csv("C:/Kaggle/train.csv")
    test = pd.read_csv("C:/Kaggle/test.csv")

  2. NumpyとはPythonにおいて数値計算を効率的にしてくれるものだそうです。便利グッズぐらいの認識でいいのかなと。
  3. PandasとはPythonにおいてデータ解析を支援するものだそうです。これも便利グッズ!
  4. isnull()というのは、Pandasのライブラリに入っている欠損を見つけるものです。こちらにうまくまとまってました。
  5. DataFlameは二次元配列の一種だそうです。こちらがとても分かりやすかったです。
  6. 木を作るときに色々と条件を設定するようです。初期設定は中々ダメな感じになっているので。変更すると過学習を防げるようです。こちらが分かりやすかったです。

 

 

以上でKaggle入門を終わりたいと思います。結構長い文章になっちゃいました。

いや~~私もようやくAIの領域に踏み入れたんだな~と喜んでいます。これからも初心者目線から何か書いていけたらなと思っています。読了ありがとうございました。

 

追記:

こちらをみて改良したところ、scoreが0.80382となり、向上しました。