北野坂備忘録

主にインストールやプログラミングのメモを載せています。

真の統計屋はうとまれる

 日本で統計屋の仕事ってすっごく少ないんですが、理由として「広告で統計を嘘に使っている」ということがあります。

 例えば、
「牛乳配達の牛乳を飲んでいる人は、寿命が平均寿命よりx%長くなる」
という広告があります。
 これは真実です。
 ちょっとデータを分析するだけで正しいと証明できるでしょう。
 ただし、「牛乳配達を受けているから寿命が延びる」のではなく、「牛乳配達というサービスを頼めるぐらい余裕のある生活をしている人は、結果として健康なので寿命が延びる」ということです。
 「牛乳配達」そのものが原因ではない。真の原因が裏側にある。
 このように、真の統計屋は常に事象の裏側にある真の原因を追究したがるのです。
 すると「こういう広告は問題がある」と言いたくなるわけですが、企業内でそういうことを言ってもうとまれるだけです。
 「統計を用いて真の原因を追究する」という統計の本道があまりお金にならなくて、「偽の統計を使って商品を良く見せる」ほうがお金になる、という根本的な問題があります。

 なお、本気で統計を勉強する人にはまずこちらの東京大学教養学部統計学教室の本をオススメします。この本は末永く使えます。


統計学入門 (基礎統計学Ⅰ)

アカデミアはなぜ尊敬され、そして尊敬されなくなったか

 イタリアの都市国家について勉強する必要があったので、こちらの本を読んでいました。


イタリア都市社会史入門―12世紀から16世紀まで

 で、ここに大学の話が出てきます。
 これが面白い。

 ボローニャには法学部(法学だけの大学)があったのですが、都市における大学の権威は非常に高かった。
 それは、大学がお金を生み出したからです。
 学生がどんどん集まると、それだけ都市に高い経済効果をもたらす。
 本も必要です。中世の本は製作に滅茶苦茶お金がかかるので、これまた職人が潤う。
 あと、法学そのものもお金になりました。中世イタリアでは訴訟が増えていったからです。
 権威を持った法学者は、貴族になれることすらありました。
 だからこそ都市は高い金を払って優秀な法学者を呼び、教師に都市国家の市民権を与え、他の都市に行かないように宣誓させたわけです。

 アカデミアは勉強するからor研究するから偉いのではなく、膨大な富を生み出すから偉かったのです。

 翻って、日本のアカデミアを見てみましょう。
 その都市に学生を集められていますか?
 その都市にお金を生み出してますか?
 もちろんできているところもありますが、できていないところも多いですよね。
 お金を生み出さないアカデミアは、あっという間に権威を失うのです。
 文系の学部がどんどん廃止されていくのは、それがお金を生み出さないからでしょう。

 なぜかイタリアの都市国家本を読んでいるうちに、アカデミアが尊敬される/尊敬されない理由に行きついてしまいました。

Amazonランキングと確率論:ロングテールの儚い真実

 機械学習系の本ではないのですが、Amazonランキングについて書かれた本を紹介します。
 こちらはAmazonランキングの中の人ではなく、ゴリッゴリの数理物理学者が確率論を駆使してAmazonランキングの謎を解き明かしていくという、いわば確率論を用いた推理小説のような本です。


Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)

 もちろんこの本の中で展開されている数理モデルも面白いんですが、私が一番気になったのはロングテールの話。

 今や「ロングテールと言えばAmazon」というぐらいの認識になっていますが(Wikipediaの「ロングテール」も例としてAmazonが挙げられている)、この本ではアマゾンがロングテールで儲けておらず、結局普通の書店と同じ「ビッグヒット」と呼ばれる部分で稼いでいることを明らかにしていきます。

 「あれだけビジネス業界でもてはやされているロングテールが実はたいしたことなかった」という話を知って本当にビックリしました。

ディープラーニングを勉強したければインターンに行け!

 この忠告はもう遅い(インターン募集が終わっている)可能性が高いのですが……。
 ディープラーニングを勉強したければインターンに行くべきです。

 大学で「ディープラーニングを勉強しよう!」と思っても、

・分析すべき大規模データが無い。
・分析する目的が無い。
・分析に使えるリソース(計算資源)が無い。
・ノウハウが無い。

ということが多い。

 ところが企業であれば、

・分析すべき大規模データがある。
・分析する目的がある。
・分析に使えるリソース(計算資源)がある(はず)。
・ノウハウがある(はず)。

とまあ至れり尽くせりです。

 インターンは「大学でできないことができるところ」を目指しましょう。



ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

再生核ヒルベルト空間

 カーネル関数の説明をしたときに飛ばしたんですが、説明を求められた人がいたそうなのでこちらも解説していきます。
 最近出たサポートベクトルマシンの専門書でも、再生核ヒルベルト空間については解説が入っていないことが多い。
 良く見かけるであろうこの本にもありませんでした。


サポートベクトルマシン (機械学習プロフェッショナルシリーズ)

 以前に「しましま先生のところに再生核ヒルベルト空間の話が無い」と言っていたのですが、嘘です。ありました。
 「再生核Hilbert空間」というオシャンティーな表記になっているので見つけられなかった模様。
再生核Hilbert空間 - 機械学習の「朱鷺の杜Wiki」


 まずはヒルベルト空間の説明ですね。
 これはユークリッド空間を一般化したものです。
 一般化するというとよく分かりませんが、逆のほうが分かりやすい。
 逆は「特殊化」です。「特殊化」っていうもの数学以外であまり聞きませんが。
 つまり、ヒルベルト空間のうち、特殊なものがユークリッド空間になります。
 ただ、ユークリッド空間から考えると良く分からないと思いますので、より大元となる最も一般化された空間から考えたほうがいいでしょう。
 
 最初に「ベクトル空間」から始まります。
 ベクトル空間に長さの概念の一般化である「ノルム」を足すと「ノルム空間」。
 そのノルムが定める距離構造が完備であれば「バナッハ空間」。
 対して内積と呼ばれる付加的な構造を備えたベクトル空間を「内積空間(計量ベクトル空間)」。「内積空間」はノルム空間でもあります。
 内積に付随するノルムの定める距離に関して完備となる空間を「ヒルベルト空間」と言います。ヒルベルト空間は「バナッハ空間」でもあります。
 以下の図を見てください。
f:id:kenichia:20170516195943p:plain

 続いて「再生核ヒルベルト空間」の話に入ります。
 「再生核ヒルベルト空間」は「再生カーネルヒルベルト空間」「RKHS」などとも表記されます。
 以前「半正定値カーネル」の話をしました。カーネル法の文脈では「正定値カーネル」のほうが一般的です。
 正定値カーネルは「再生性」を持ちます。
 「再生性」についてはこちらが分かりやすい。
qiita.com
 ここで先ほどの「ヒルベルト空間」に戻ります。
 「ヒルベルト空間」には内積構造があるわけですが、この内積を「再生性」があるように定めた特殊なヒルベルト空間を「再生核ヒルベルト空間」と言います。
 「再生核ヒルベルト空間」の「再生核」は正定値カーネルになります。実は正定値カーネルと再生核ヒルベルト空間は1対1の関係になっていまして、これを「正定値カーネルは、再生核ヒルベルト空間を定める」と表現します。
 詳しくはこちらをご覧ください。
再生核ヒルベルト空間を用いた非線形データ解析法(福水健次氏)


 まとめますと、

・「再生核ヒルベルト空間」とは、内積を「再生性」があるように定めたヒルベルト空間である。
・再生核ヒルベルト空間の「再生核」は「正定値カーネル」であり、「再生核ヒルベルト空間」と「正定値カーネル」は1対1の関係になっている。

となります。

 で、結局「再生性」があると何がうれしいのか。
 内積計算が元空間のカーネルで計算できます。これが正定値カーネルを用いる利点なわけです。
 他にも「再生核ヒルベルト空間」を定義することで様々な利点が得られます。
 もともと数学の各分野で「再生核ヒルベルト空間」が使われていたので、その利点に気付いた人が機械学習に持ち込んだわけです。
 ただ、最近の機械学習>サポートベクトルマシン>カーネル関数で「再生核ヒルベルト空間とは何か説明しろ」とまで聞かれることはまずないので前回は飛ばしましたし、サポートベクトルマシンの専門書でもそこまで扱わなくなってきています。
 

衰退する日の丸半導体:次のステージへの転身失敗

 こんな記事がありました。
www.jiji.com

 こういう話を聞くと「トヨタ自動車」を思い出します。
 トヨタ自動車は「豊田自動織機」という会社が興した「自動車部」が元です。そこから華麗に転身したわけですね。
 日本は「半導体」という「自動織機」から転身できませんでした。鉄鋼の次に「産業の米」と呼ばれていたのも良くなかったですね……米と一緒で国のカネが無駄に流れ込んでいきました。
 「ものづくり(=ハードウェアづくり)」に拘りすぎています。
 そういえば昔、自民党の森首相も「ものづくり」に拘っていました。年寄りで上の方の人と言うのは、どうしてもその頃の成功体験から抜け出せないみたいです。

 「じゃあ何に転身すべきだったのか」と言われると、「システム」ですね。
 具体的には「ハードウェアとソフトウェアの融合」です。
 AppleiTunesなんかがそうですね。
 iPodというハードウェアと、iTunesというソフトウェアを組み合わせて全世界規模の音楽販売システムを構築する。
 そこに優位性が生まれたわけです。
 ソニーなんか二番手でiTunesをおっかけても良かったような気がします。
 GoogleAndroidiPhoneの後追いをして莫大な利益を手に入れましたし。
 最近はやりの「自動運転」も「ハードウェアとソフトウェアの融合」の極致です。

 日本でうまくやっているところとしては「コマツ」が挙げられます。
 建築機械の会社だったのですが、建築機械と自前の管理システム、保安システムを組み合わせることで一躍海外シェアを広げました。おかげで今ではむしろ「KOMATSU」というローマ字表記のほうが有名でしょう。
 このあたりの話は以下の本が面白いです。


ダントツ経営―コマツが目指す「日本国籍グローバル企業」

 この本の「ICTで市場を『見える化』する」というところが勝利のカギですね。
 「結局現代ではITに強い経営者が勝つ」という見本のようなものです。
 

数学の苦手な文系の人は数学史という手も

 文系の人に教科書通りの群論の話を展開してもなかなか伝わりません。
 歴史好きな人であれば、こちらの本を試してみましょう。


19世紀の数学〈1〉数理論理学・代数学・数論・確率論

 どうも文系の人は、

・誰が
・どういう流れで
・何をやったのか

というセットのほうが理解しやすいらしい。
 いきなり「アーベル群」の説明をしても全くダメなんですが、

・アーベルはどういう人で
・アーベル以前にどんな問題があって
・アーベルはそれをどのように解いたか

という流れにするとスッと入っていく。
 頭の中で「人物」がキーになっているようです。
 そのキーをもとに情報を取り出していく。
 逆に理系の人はあまり数学史に興味を持たないような気がします。