北野坂備忘録

主にインストールやプログラミングのメモを載せています。

機械学習・データマイニング・テキストマイニングを勉強しようと思う初心者に送る入門書と送らない書籍一覧

 この一年間機械学習データマイニングテキストマイニングの本をいろいろと読んできましたが、機械学習の大御所が紹介している本の中には「あなたは分かるだろうけど、俺たち初心者にはコレまだ理解できないよね?」というものもありました。
 そこで、あくまで素人から見て理解しやすい本を上げていきたいと思います。続いてあとから手を出すべき本と、手を出すべきではなかった本を紹介します。

Python 及び R
 なにはともあれ機械学習はプログラミングができないとお話になりません。現状ではPythonとRがオススメです。
 初心者向けPython本はいろいろありますが、面白い本を紹介します。

Pythonポケットリファレンス

 「ポケットリファレンス」と書いてありますが、辞書ではなくて小さな本の中にシンプルなコードがみっちり詰まっています。なぜかタイトルに反し中身は中級者を目指す初心者向け入門書として最適の構成になっており、特に初心者が他人のコードを読むときに「このメソッドはどういう挙動なのか」を手っ取り早く調べるのに最適です。Pyhton2.6対応で、後ろにちょっとだけPython3.0のことが書いてあり、これがなかなかPython3に移行できていない現状にもピッタリです。まともにプログラミングをやっていると「Hello, world!」的な入門書では物足りなくなるので、授業で使っている教科書が簡単すぎて不満や不安を感じた人はぜひ手に取ってみてください。

 Rの本はこちらをオススメします。

Rによるやさしい統計学

 「Rも良く分からないし統計も自信がない」という人にピッタリな一冊です。両方を同時に勉強できる欲張りでありながら分かりやすい本。逆に統計を知っている人ならRの高速入門書として使えます。「ああこういう風に処理するのね」とサクサク進めていくことができるでしょう。

機械学習入門書
はじめてのパターン認識

 一番最近読んだ本をオススメするのもどうかと思いますが、だって仕方ないじゃん一番分かりやすいんだから。いろいろなサイトで真っ先に取り上げられているのは伊達ではありません。

 『はじめてのパターン認識』を読んだ後はコチラ。

データサイエンティスト養成読本:機械学習入門編

 『はじめてのパターン認識』は2012年の本なので、2015年にはどうなっているかを知るにはこの本がベストです。『はじめてのパターン認識』は教科書的にノートを取りながら時間をかけてみっちり読み込み(それだけの価値があります)、こちらはそのあとで雑誌的にざっと読むといいでしょう。

テキストマイニング自然言語処理
 自然言語処理の本も何冊も読んできましたがベストはこれ。

言語処理のための機械学習入門

 超絶にわかりやすい。ただ、『はじめてのパターン認識』を読んでからのほうが良い。

深層学習入門書
 ディープラーニングのことを知りたいという方はこちら。

深層学習

 「これを買ったらディープラーニングのコードがガリガリ書けるようになるぜ!」という本ではなくて、CNNやRNNまで基礎理論を丁寧に見渡した教科書的な一冊です。深層学習のことを知りたくて最初に読む本としては最適でしょう。
 去年(2015年)出版された本なのに何度も刷が上がっているようです。最新の刷を買いましょう。


あとまわし
 最初に読まないほうが良かったよな……という後悔をこめてこのエントリを書きます。
パターン認識機械学習(通称:黄色本orPRML)

 今の時代もっと分かりやすい本がいっぱいあります。先にそちらを読んでからにしましょう。
 出来が悪いとかそういうことではなくて、この本は、
「起源にして、頂点」
 なのです。

テキストマイニングハンドブック

 今の時代もっと分かりやすい本がいっぱいあります。先にそちらを読んでからにしましょう。

データ解析のための統計モデリング入門

 これ、バイオ系の人はスラスラ読めるんでしょうが、情報系や心理系の人にはかなりハードルが高い本ではないでしょうか。私もこの本を理解するのにかなり苦労しましたし、心理系の人で「第7章の一般化線形混合モデルまでは理解できたが、次のMCMC法とベイズ統計モデルのところで急に分からなくなった」という人がいました。たぶんこの本で言うところの「統計モデリング」というのが「バイオのモデリング」に終始しているためではないかと思います。
 いろいろなサイトで推薦されていますが、初心者が読むと詰むと思うのでこちらに回しました。

岩波データサイエンス

 書店でカンタンに手に入るためついつい手を伸ばしてしまいがちですが、そもそも「岩波データサイエンス刊行委員会」というデータサイエンスの化け物の集合体が「こーゆーテーマの本ってまだないよねー」と言いながら作っている本なのでわりとマニアックです。雑誌的感覚で眺めたり、自分の追っているテーマに当てはまったときだけ買えばいいと思います。


読まなくていいんじゃないかな
 最初にも最後にも読む必要はないのではないか、という本です。
イラストで学ぶ機械学習

 中身はともかく企画と構成で完全に失敗しています。すごく初心者向きの風体をしていながら、ぜんぜん初心者向きではありません。この本が出た当時のことは分かりませんが、今なら他の本を読んだほうがいいと思います。