北野坂備忘録

主にインストールやプログラミングのメモを載せています。

Rによる機械学習入門

 こちらの本を読んでみました。


Rによる機械学習入門

 一言で言うと「詰め込み過ぎ」
 どれくらいギュウギュウかというと、第7章が「仮説検定」なんですが、
・仮説検定の枠組み
・ノンパラメトリック検定
・分散分析
 このそれなりにボリュームのある3つの話題がたった14ページで解説されています。キツい。全ての章がこんな感じです。

 内容解説には「ていねいに解説」とありますが、「数式を多用し解説を端折り過ぎている」と言った方が適切です。
 正直これで独学するのは難しいでしょう。内容は充実しているので、どちらかというと教科書的に使用する、十分な知識を持った教師が解説しながら何回かに分けて読み解いていく、という使い方が適切だと思います。

Rプログラミング本格入門: 達人データサイエンティストへの道

 いい本だったのでご紹介。


Rプログラミング本格入門: 達人データサイエンティストへの道

 「本格入門」とありますが「入門」ではなく「本格」派です。初心者向きではありません。内容紹介でも「中級者へ向けて書いた入門書」と書かれてあり「それは入門書ではないのでは……?」という気がします。実際にRを使って既に何度か頭を打った人向けです。

 第2章の「基本的なオブジェクト」で既に「あ、そーなの?」みたいな話がいっぱいありました。Rの基本的なオブジェクトである「ベクトル、行列、配列、リスト、データフレーム、関数」の6つをこれだけ理解できているひとはそんなにいないんじゃないでしょうか。

 あとは第8章「Rの内部を覗く」も良かった。遅延評価、コピー修正、レキシカルスコープ、環境について解説しています。特にレキシカルスコープは自分でRの関数を作る人のハマりどころ。なかなか思った通りの挙動をせず苦しめられた人も多いのでは。この章を読むとだいぶ見通しが良くなると思います。

「初心者が実践的に学ぶ」とは? ~専門家の誤謬~

 岩波データサイエンス刊行委員会メンバーによる連続する2つのツイートを見ていただきましょう。


 最初のツイートは「初心者が実践的に学ぶ」の話をしています。
 ところが、それを受けたはずの2つ目のツイートは完全に「実践的にベイズを使う」話になっています。
 正直、2つ目のツイートの内容は全く初心者向けではありません。
 「実践的」かつ「押さえるべき三大トピック」なのは確かですが、これがすんなりと理解できる初心者はいないでしょう。


 専門家はこういう間違いをやりがちです。
 つまり、自分が初心者だったころのことをまるで覚えていないかのように振る舞うのです。本人は初心者向きの話をしているつもりでも、実際のところは全く初心者向きではない(もしかすると、本当に頭が良くて初心者時代が無かったのかもしれませんが)。


ベイズモデリングの世界

 まだ刊行されてはいませんが、『ベイズモデリングの世界』はおそらく初心者向きではなく、「最先端の研究者から見た俯瞰的な状況解説」になっていると思われます。
 初心者がこの本を読んでも「何が書いてあるかほとんどわからない……」となるでしょうから、手を出すのは他のベイズ入門書を読んでからの方が良いと思います。入門書の紹介はあるみたいなのでそこだけ読むのも手かもしれません。

時系列分析の入門書

 時系列分析の入門書はいくつかありますが、今のところ初心者向けのおすすめはこちら。


入門はじめての時系列分析

 本文中ではExcelSPSSを使っていますが、SPSSの環境は必要ありません。それぐらい内容が丁寧でわかりやすい。

 この本で、

・時系列分析とは何か
・自己回帰(AR)モデルとは何か

をざっくりと掴んでから、他の本にとりかかると良いと思います。

「科学技術立国」は幻想なのではないか?

 CS、特に機械学習系の研究室はまだ企業とのつきあいが多く優遇されていますが……。
 今、「日本の科学にお金が落とされていない」という話が噴出しています。
 「このままでは科学技術立国を堅持できない」という日経新聞の記事もありました。

www.nikkei.com

 私は、これは逆だったのではないかと考えています。
「日本は科学技術によって経済的に潤った」
 のではなく、
「日本に経済的余裕があったから科学技術に投資できた」
 だけではないか、ということです。

 つまり、「朝鮮戦争から始まる特需によって科学技術部門に投資できた」だけであって、「科学技術部門への投資によって高度経済成長が発生した」わけではないのではないかと考えています。
 「科学技術」によって「立国」したのではなく、「立国」によって「科学技術」が発展した。
 上の記事ではノーベル賞を取り上げていますが、それでいくと「ノーベル賞を取れるような研究をしたから経済が発展した」のではなく、「経済が発展したからノーベル賞を取れるような研究ができた」ということです。

 この理論に従うと、今後中国がノーベル賞の数が増えていき、日本は減っていくと思われます。
 なぜなら、中国は経済的に豊かであり、日本は相対的に貧しくなっていくからです。

 「科学技術」に投資することが「経済の活性」に繋がらないのであれば、「科学技術」に投資せず「経済の活性」に投資したほうが良いということになります。なぜなら、経済が活性して初めて「科学技術」に投資されるからです。

 統計的因果推論に足を踏み込むと、どうしてもこういった、「今まで思い込んでいた原因と結果が実は反対ではないか」ということを考えてしまいます。

本日のTwitter謎トレンド:にんぐふみな

 Twitter公式トレンドに「にんぐふみな」という謎単語が。

 以前発売された「HGBFすーぱーふみな」(下記参照)の後継機である「ういにんぐふみな」を誤検知した模様。


HGBF ガンダムビルドファイターズトライ すーぱーふみな 1/144スケール 色分け済みプラモデル

 今までTwitter公式トレンドは「カタカナ-ひらがな」分割しすぎてしまうという問題は広く知られていたものの、今回のように「ひらがな」を途中で分割するのは珍しい。

 おそらく、
 「 HGBF  -  うい  -  にんぐふみな 」
という分割がTwitter社で行われたものと思われる。

 「 ういにんぐ  -  ふみな 」

ではなく、

 「 うい  -  にんぐふみな 」

と分割した重み付けの理由を知りたい。

岩波データサイエンスVol.6「時系列解析」

 岩波データサイエンスの第6巻「時系列解析」特集号が出ました。


岩波データサイエンス Vol.6

 岩波データサイエンスシリーズはわりとマニアックなので「自分の興味のある号のみ買った方が良い」としているのですが、今回の「時系列解析」は実際にデータ分析を行う上で必ず出会うのと、「時系列解析」についてはあまり良い入門書がない(入門書と言いつつかなり重いものが多い)ので、データ分析を志す人はこれを買っておくことをオススメします。