こんにちは、ツクダンです!
この記事では、Kaggleメダル獲得を目標にしている初心者に向けて、オススメ書籍をいくつか紹介したいと思います。
この記事は、こんな人にオススメ!
- これからKaggleに参加する人
- Kaggleでのメダル獲得を目指す人
- データサイエンススキルを上げたい人
初心者がKaggleで戦うための5冊
まずはKaggleでメダル獲得を目指すのに役立つ書籍を5つ紹介していきます。
データサイエンスハンドブック
データサイエンス始めるなら、そばに置いときたい一冊。
データサイエンスに必要なPythonライブラリについて鳥肌が立つほど綺麗にまとめられています。
機械学習の項目がほんとにわかりやすい。
Numpy・Pandasだけでもいいので、使い方に慣れておきましょう。
テキストを読みながら二回くらい写経すればOKです。
PythonではじめるKaggleスタートブック
「kaggleのこと、なにも分かりません」って人にオススメしたい書籍。
登録方法(情報が古い)から始まり、Kaggleデータ分析の一連の流れを解説してくれます。
「Titanic(2値分類)」と「House Prices(回帰)」の二種類の練習用コンペを使って、基本は大体説明してくれるので、Kaggleの大枠をつかむのにもってこい。
Kaggleの大まかな流れと、pandas操作に慣れるために使ってください。
各コンペ2周くらい写経すればOK。
Kaggleで磨く機械学習の実践力
本格的にコンペで戦っていくための手順を詳しく解説した書籍。
「前処理」「特徴量エンジニアリング」など、各ステップでの試行錯誤の基盤を身に着けられます。
ポイントは「ベースライン作成」と「Try & Error」。
学んだことを過去コンペ(分類と回帰ひとつずつ)を通してアウトプットできるのもいい。
本書の内容まで身につければ、「何をすればKaggleで勝てるか?」が見えてくるでしょう。
Kaggleで勝つデータ分析の技術
Kaggleにガチ勢になるなら、必ず読んでおきたい一冊。
どのようなポイントを押さえていけばスコアが向上するのかを、分析ステップごとにまとめてくれています。
「これ身に着けたら、そりゃ勝てるわな。」ってくらい細かく、そのぶん難易度は高め。
上の三冊を終えた後がちょうど良いでしょう。
Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ
Kaggleに特化というよりも、実際のデータ分析に役立つTips集といった感じの書籍。
『Kaggleで勝つデータ分析の技術』との違いは、Pythonコード例がメインであること。
実際のコードを使った評価指標の解説がすごく良い。
さらにデータサイエンス力を上げる4冊
続いてKaggleだけに留まらない、データサイエンスの本質的な力をつけるための書籍を4冊ほど紹介。
Python機械学習プログラミング 達人データサイエンティストによる理論と実装
「データサイエンスで使うアルゴリズムを理解したい。」という人にオススメの書籍。
正直言って内容はそこそこ難しいです。
ただここが、データサイエンス・AI・機械学習の初心者脱却の一つの目安となるでしょう。
成長速度が莫大な機械学習分野ですが、この書籍を軸足に学べば、様々な分野への応用が利きます。
分析者のためのデータ解釈学入門 データの本質をとらえる技術
「得られたデータから読みとれることは何か?」を徹底的に突き詰めた本。
バイアスの有無や種類、変数間の関係、多変量データの解釈などなど盛りだくさんの内容。
入門と書かれているが、入門ではない。
なかなか他では見ることができないので、全員に読んで欲しいです。
前処理大全
タイトル通り、データの前処理のすべてをまとめたような本。
データ分析の実務者は、常に手の届くところに置いておきたい内容です。
各シチュエーションごとにどのようなデータの前処理を行うべきか書かれており、それぞれについてSQL / R / Pythonコードの良い例・悪い例の両方を解説してくれます。
Pythonで理解する統計解析の基礎
Python統計処理のコーディングを学びたい人にオススメの一冊。
NumpyとScipyの二種類のライブラリを使った、統計処理コーディングが学べます。
統計学的な知識に関しては、入門的なものをさらっとまとめた感じ。
メダル目指すKaggleオススメ書籍まとめ
今回はKaggle初心者に向けて、Kaggleでメダルを取るためにオススメ書籍を紹介しました。
Kaggle本に関しては上から順に取り組んでいくのが、ロードマップ的にも良いと思います。
ぜひとも参考にしてみてください。