北野坂備忘録

主にインストールやプログラミングのメモを載せています。

時系列分析の入門書

 時系列分析の入門書はいくつかありますが、今のところ初心者向けのおすすめはこちら。


入門はじめての時系列分析

 本文中ではExcelSPSSを使っていますが、SPSSの環境は必要ありません。それぐらい内容が丁寧でわかりやすい。

 この本で、

・時系列分析とは何か
・自己回帰(AR)モデルとは何か

をざっくりと掴んでから、他の本にとりかかると良いと思います。

「科学技術立国」は幻想なのではないか?

 CS、特に機械学習系の研究室はまだ企業とのつきあいが多く優遇されていますが……。
 今、「日本の科学にお金が落とされていない」という話が噴出しています。
 「このままでは科学技術立国を堅持できない」という日経新聞の記事もありました。

www.nikkei.com

 私は、これは逆だったのではないかと考えています。
「日本は科学技術によって経済的に潤った」
 のではなく、
「日本に経済的余裕があったから科学技術に投資できた」
 だけではないか、ということです。

 つまり、「朝鮮戦争から始まる特需によって科学技術部門に投資できた」だけであって、「科学技術部門への投資によって高度経済成長が発生した」わけではないのではないかと考えています。
 「科学技術」によって「立国」したのではなく、「立国」によって「科学技術」が発展した。
 上の記事ではノーベル賞を取り上げていますが、それでいくと「ノーベル賞を取れるような研究をしたから経済が発展した」のではなく、「経済が発展したからノーベル賞を取れるような研究ができた」ということです。

 この理論に従うと、今後中国がノーベル賞の数が増えていき、日本は減っていくと思われます。
 なぜなら、中国は経済的に豊かであり、日本は相対的に貧しくなっていくからです。

 「科学技術」に投資することが「経済の活性」に繋がらないのであれば、「科学技術」に投資せず「経済の活性」に投資したほうが良いということになります。なぜなら、経済が活性して初めて「科学技術」に投資されるからです。

 統計的因果推論に足を踏み込むと、どうしてもこういった、「今まで思い込んでいた原因と結果が実は反対ではないか」ということを考えてしまいます。

本日のTwitter謎トレンド:にんぐふみな

 Twitter公式トレンドに「にんぐふみな」という謎単語が。

 以前発売された「HGBFすーぱーふみな」(下記参照)の後継機である「ういにんぐふみな」を誤検知した模様。


HGBF ガンダムビルドファイターズトライ すーぱーふみな 1/144スケール 色分け済みプラモデル

 今までTwitter公式トレンドは「カタカナ-ひらがな」分割しすぎてしまうという問題は広く知られていたものの、今回のように「ひらがな」を途中で分割するのは珍しい。

 おそらく、
 「 HGBF  -  うい  -  にんぐふみな 」
という分割がTwitter社で行われたものと思われる。

 「 ういにんぐ  -  ふみな 」

ではなく、

 「 うい  -  にんぐふみな 」

と分割した重み付けの理由を知りたい。

岩波データサイエンスVol.6「時系列解析」

 岩波データサイエンスの第6巻「時系列解析」特集号が出ました。


岩波データサイエンス Vol.6

 岩波データサイエンスシリーズはわりとマニアックなので「自分の興味のある号のみ買った方が良い」としているのですが、今回の「時系列解析」は実際にデータ分析を行う上で必ず出会うのと、「時系列解析」についてはあまり良い入門書がない(入門書と言いつつかなり重いものが多い)ので、データ分析を志す人はこれを買っておくことをオススメします。

真の統計屋はうとまれる

 日本で統計屋の仕事ってすっごく少ないんですが、理由として「広告で統計を嘘に使っている」ということがあります。

 例えば、
「牛乳配達の牛乳を飲んでいる人は、寿命が平均寿命よりx%長くなる」
という広告があります。
 これは真実です。
 ちょっとデータを分析するだけで正しいと証明できるでしょう。
 ただし、「牛乳配達を受けているから寿命が延びる」のではなく、「牛乳配達というサービスを頼めるぐらい余裕のある生活をしている人は、結果として健康なので寿命が延びる」ということです。
 「牛乳配達」そのものが原因ではない。真の原因が裏側にある。
 このように、真の統計屋は常に事象の裏側にある真の原因を追究したがるのです。
 すると「こういう広告は問題がある」と言いたくなるわけですが、企業内でそういうことを言ってもうとまれるだけです。
 「統計を用いて真の原因を追究する」という統計の本道があまりお金にならなくて、「偽の統計を使って商品を良く見せる」ほうがお金になる、という根本的な問題があります。

 なお、本気で統計を勉強する人にはまずこちらの東京大学教養学部統計学教室の本をオススメします。この本は末永く使えます。


統計学入門 (基礎統計学Ⅰ)

アカデミアはなぜ尊敬され、そして尊敬されなくなったか

 イタリアの都市国家について勉強する必要があったので、こちらの本を読んでいました。


イタリア都市社会史入門―12世紀から16世紀まで

 で、ここに大学の話が出てきます。
 これが面白い。

 ボローニャには法学部(法学だけの大学)があったのですが、都市における大学の権威は非常に高かった。
 それは、大学がお金を生み出したからです。
 学生がどんどん集まると、それだけ都市に高い経済効果をもたらす。
 本も必要です。中世の本は製作に滅茶苦茶お金がかかるので、これまた職人が潤う。
 あと、法学そのものもお金になりました。中世イタリアでは訴訟が増えていったからです。
 権威を持った法学者は、貴族になれることすらありました。
 だからこそ都市は高い金を払って優秀な法学者を呼び、教師に都市国家の市民権を与え、他の都市に行かないように宣誓させたわけです。

 アカデミアは勉強するからor研究するから偉いのではなく、膨大な富を生み出すから偉かったのです。

 翻って、日本のアカデミアを見てみましょう。
 その都市に学生を集められていますか?
 その都市にお金を生み出してますか?
 もちろんできているところもありますが、できていないところも多いですよね。
 お金を生み出さないアカデミアは、あっという間に権威を失うのです。
 文系の学部がどんどん廃止されていくのは、それがお金を生み出さないからでしょう。

 なぜかイタリアの都市国家本を読んでいるうちに、アカデミアが尊敬される/尊敬されない理由に行きついてしまいました。

Amazonランキングと確率論:ロングテールの儚い真実

 機械学習系の本ではないのですが、Amazonランキングについて書かれた本を紹介します。
 こちらはAmazonランキングの中の人ではなく、ゴリッゴリの数理物理学者が確率論を駆使してAmazonランキングの謎を解き明かしていくという、いわば確率論を用いた推理小説のような本です。


Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)

 もちろんこの本の中で展開されている数理モデルも面白いんですが、私が一番気になったのはロングテールの話。

 今や「ロングテールと言えばAmazon」というぐらいの認識になっていますが(Wikipediaの「ロングテール」も例としてAmazonが挙げられている)、この本ではアマゾンがロングテールで儲けておらず、結局普通の書店と同じ「ビッグヒット」と呼ばれる部分で稼いでいることを明らかにしていきます。

 「あれだけビジネス業界でもてはやされているロングテールが実はたいしたことなかった」という話を知って本当にビックリしました。