本日のTwitter謎トレンド:にんぐふみな
Twitter公式トレンドに「にんぐふみな」という謎単語が。
【女神再臨!!】
— バンダイ ホビー事業部 (@HobbySite) 2017年6月30日
シルエットの正体がついに公開
“すーぱー”から“ういにんぐ”へ超進化!
「HGBF ういにんぐふみな」9月発売!!#g_bf https://t.co/CDZtLKRKPE pic.twitter.com/VCCvjrzlAS
以前発売された「HGBFすーぱーふみな」(下記参照)の後継機である「ういにんぐふみな」を誤検知した模様。
HGBF ガンダムビルドファイターズトライ すーぱーふみな 1/144スケール 色分け済みプラモデル
今までTwitter公式トレンドは「カタカナ-ひらがな」分割しすぎてしまうという問題は広く知られていたものの、今回のように「ひらがな」を途中で分割するのは珍しい。
おそらく、
「 HGBF - うい - にんぐふみな 」
という分割がTwitter社で行われたものと思われる。
「 ういにんぐ - ふみな 」
ではなく、
「 うい - にんぐふみな 」
と分割した重み付けの理由を知りたい。
岩波データサイエンスVol.6「時系列解析」
岩波データサイエンスの第6巻「時系列解析」特集号が出ました。
岩波データサイエンスシリーズはわりとマニアックなので「自分の興味のある号のみ買った方が良い」としているのですが、今回の「時系列解析」は実際にデータ分析を行う上で必ず出会うのと、「時系列解析」についてはあまり良い入門書がない(入門書と言いつつかなり重いものが多い)ので、データ分析を志す人はこれを買っておくことをオススメします。
真の統計屋はうとまれる
日本で統計屋の仕事ってすっごく少ないんですが、理由として「広告で統計を嘘に使っている」ということがあります。
例えば、
「牛乳配達の牛乳を飲んでいる人は、寿命が平均寿命よりx%長くなる」
という広告があります。
これは真実です。
ちょっとデータを分析するだけで正しいと証明できるでしょう。
ただし、「牛乳配達を受けているから寿命が延びる」のではなく、「牛乳配達というサービスを頼めるぐらい余裕のある生活をしている人は、結果として健康なので寿命が延びる」ということです。
「牛乳配達」そのものが原因ではない。真の原因が裏側にある。
このように、真の統計屋は常に事象の裏側にある真の原因を追究したがるのです。
すると「こういう広告は問題がある」と言いたくなるわけですが、企業内でそういうことを言ってもうとまれるだけです。
「統計を用いて真の原因を追究する」という統計の本道があまりお金にならなくて、「偽の統計を使って商品を良く見せる」ほうがお金になる、という根本的な問題があります。
アカデミアはなぜ尊敬され、そして尊敬されなくなったか
イタリアの都市国家について勉強する必要があったので、こちらの本を読んでいました。
で、ここに大学の話が出てきます。
これが面白い。
ボローニャには法学部(法学だけの大学)があったのですが、都市における大学の権威は非常に高かった。
それは、大学がお金を生み出したからです。
学生がどんどん集まると、それだけ都市に高い経済効果をもたらす。
本も必要です。中世の本は製作に滅茶苦茶お金がかかるので、これまた職人が潤う。
あと、法学そのものもお金になりました。中世イタリアでは訴訟が増えていったからです。
権威を持った法学者は、貴族になれることすらありました。
だからこそ都市は高い金を払って優秀な法学者を呼び、教師に都市国家の市民権を与え、他の都市に行かないように宣誓させたわけです。
アカデミアは勉強するからor研究するから偉いのではなく、膨大な富を生み出すから偉かったのです。
翻って、日本のアカデミアを見てみましょう。
その都市に学生を集められていますか?
その都市にお金を生み出してますか?
もちろんできているところもありますが、できていないところも多いですよね。
お金を生み出さないアカデミアは、あっという間に権威を失うのです。
文系の学部がどんどん廃止されていくのは、それがお金を生み出さないからでしょう。
なぜかイタリアの都市国家本を読んでいるうちに、アカデミアが尊敬される/尊敬されない理由に行きついてしまいました。
Amazonランキングと確率論:ロングテールの儚い真実
機械学習系の本ではないのですが、Amazonランキングについて書かれた本を紹介します。
こちらはAmazonランキングの中の人ではなく、ゴリッゴリの数理物理学者が確率論を駆使してAmazonランキングの謎を解き明かしていくという、いわば確率論を用いた推理小説のような本です。
Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)
もちろんこの本の中で展開されている数理モデルも面白いんですが、私が一番気になったのはロングテールの話。
今や「ロングテールと言えばAmazon」というぐらいの認識になっていますが(Wikipediaの「ロングテール」も例としてAmazonが挙げられている)、この本ではアマゾンがロングテールで儲けておらず、結局普通の書店と同じ「ビッグヒット」と呼ばれる部分で稼いでいることを明らかにしていきます。
「あれだけビジネス業界でもてはやされているロングテールが実はたいしたことなかった」という話を知って本当にビックリしました。
ディープラーニングを勉強したければインターンに行け!
再生核ヒルベルト空間
カーネル関数の説明をしたときに飛ばしたんですが、説明を求められた人がいたそうなのでこちらも解説していきます。
最近出たサポートベクトルマシンの専門書でも、再生核ヒルベルト空間については解説が入っていないことが多い。
良く見かけるであろうこの本にもありませんでした。
サポートベクトルマシン (機械学習プロフェッショナルシリーズ)
以前に「しましま先生のところに再生核ヒルベルト空間の話が無い」と言っていたのですが、嘘です。ありました。
「再生核Hilbert空間」というオシャンティーな表記になっているので見つけられなかった模様。
再生核Hilbert空間 - 機械学習の「朱鷺の杜Wiki」
まずはヒルベルト空間の説明ですね。
これはユークリッド空間を一般化したものです。
一般化するというとよく分かりませんが、逆のほうが分かりやすい。
逆は「特殊化」です。「特殊化」っていうもの数学以外であまり聞きませんが。
つまり、ヒルベルト空間のうち、特殊なものがユークリッド空間になります。
ただ、ユークリッド空間から考えると良く分からないと思いますので、より大元となる最も一般化された空間から考えたほうがいいでしょう。
最初に「ベクトル空間」から始まります。
ベクトル空間に長さの概念の一般化である「ノルム」を足すと「ノルム空間」。
そのノルムが定める距離構造が完備であれば「バナッハ空間」。
対して内積と呼ばれる付加的な構造を備えたベクトル空間を「内積空間(計量ベクトル空間)」。「内積空間」はノルム空間でもあります。
内積に付随するノルムの定める距離に関して完備となる空間を「ヒルベルト空間」と言います。ヒルベルト空間は「バナッハ空間」でもあります。
以下の図を見てください。
続いて「再生核ヒルベルト空間」の話に入ります。
「再生核ヒルベルト空間」は「再生カーネルヒルベルト空間」「RKHS」などとも表記されます。
以前「半正定値カーネル」の話をしました。カーネル法の文脈では「正定値カーネル」のほうが一般的です。
正定値カーネルは「再生性」を持ちます。
「再生性」についてはこちらが分かりやすい。
qiita.com
ここで先ほどの「ヒルベルト空間」に戻ります。
「ヒルベルト空間」には内積構造があるわけですが、この内積を「再生性」があるように定めた特殊なヒルベルト空間を「再生核ヒルベルト空間」と言います。
「再生核ヒルベルト空間」の「再生核」は正定値カーネルになります。実は正定値カーネルと再生核ヒルベルト空間は1対1の関係になっていまして、これを「正定値カーネルは、再生核ヒルベルト空間を定める」と表現します。
詳しくはこちらをご覧ください。
再生核ヒルベルト空間を用いた非線形データ解析法(福水健次氏)
まとめますと、
・「再生核ヒルベルト空間」とは、内積を「再生性」があるように定めたヒルベルト空間である。
・再生核ヒルベルト空間の「再生核」は「正定値カーネル」であり、「再生核ヒルベルト空間」と「正定値カーネル」は1対1の関係になっている。
となります。
で、結局「再生性」があると何がうれしいのか。
内積計算が元空間のカーネルで計算できます。これが正定値カーネルを用いる利点なわけです。
他にも「再生核ヒルベルト空間」を定義することで様々な利点が得られます。
もともと数学の各分野で「再生核ヒルベルト空間」が使われていたので、その利点に気付いた人が機械学習に持ち込んだわけです。
ただ、最近の機械学習>サポートベクトルマシン>カーネル関数で「再生核ヒルベルト空間とは何か説明しろ」とまで聞かれることはまずないので前回は飛ばしましたし、サポートベクトルマシンの専門書でもそこまで扱わなくなってきています。