北野坂備忘録

主にインストールやプログラミングのメモを載せています。

岡三マンは何人で構成されているか自然言語処理で解析してみた

Twitterで有名な「岡三マン(@okasanman)」は複数人執筆説があります。 twitter.comそこで、本稿では統計解析環境「R」を用いて岡三マンが何人で執筆されているのか分析してみました。今回は 2018/03/08 から 2018/03/18 までの 796tweet を分析対象とします…

CentOS6でneologdの更新ができなくなった(SSL connect error)

fatal: unable to access 'https://github.com/neologd/mecab-ipadic-neologd.git/': SSL connect errorSSLでhttps接続しようとするとエラー。 curlのバージョンが古い……のではなくてnssが問題らしい。 yum update nssこれで解決した。

Rによる機械学習入門

こちらの本を読んでみました。 Rによる機械学習入門 一言で言うと「詰め込み過ぎ」。 どれくらいギュウギュウかというと、第7章が「仮説検定」なんですが、 ・仮説検定の枠組み ・ノンパラメトリック検定 ・分散分析 このそれなりにボリュームのある3つの話…

Rプログラミング本格入門: 達人データサイエンティストへの道

いい本だったのでご紹介。 Rプログラミング本格入門: 達人データサイエンティストへの道 「本格入門」とありますが「入門」ではなく「本格」派です。初心者向きではありません。内容紹介でも「中級者へ向けて書いた入門書」と書かれてあり「それは入門書では…

「初心者が実践的に学ぶ」とは? ~専門家の誤謬~

岩波データサイエンス刊行委員会メンバーによる連続する2つのツイートを見ていただきましょう。「ベイズ統計を基礎から学ぶ」というと (1)スパムフィルタとかのナイーブベイズ近似をベイズの代表と思う (2)主観確率の公理に詳しくなる (3)無情報事前分布の通…

時系列分析の入門書

時系列分析の入門書はいくつかありますが、今のところ初心者向けのおすすめはこちら。 入門はじめての時系列分析 本文中ではExcelとSPSSを使っていますが、SPSSの環境は必要ありません。それぐらい内容が丁寧でわかりやすい。 この本で、・時系列分析とは何か…

「科学技術立国」は幻想なのではないか?

CS、特に機械学習系の研究室はまだ企業とのつきあいが多く優遇されていますが……。 今、「日本の科学にお金が落とされていない」という話が噴出しています。 「このままでは科学技術立国を堅持できない」という日経新聞の記事もありました。www.nikkei.com 私…

本日のTwitter謎トレンド:にんぐふみな

Twitter公式トレンドに「にんぐふみな」という謎単語が。【女神再臨!!】シルエットの正体がついに公開“すーぱー”から“ういにんぐ”へ超進化!「HGBF ういにんぐふみな」9月発売!!#g_bf https://t.co/CDZtLKRKPE pic.twitter.com/VCCvjrzlAS— バンダイ ホビ…

岩波データサイエンスVol.6「時系列解析」

岩波データサイエンスの第6巻「時系列解析」特集号が出ました。 岩波データサイエンス Vol.6 岩波データサイエンスシリーズはわりとマニアックなので「自分の興味のある号のみ買った方が良い」としているのですが、今回の「時系列解析」は実際にデータ分析を…

真の統計屋はうとまれる

日本で統計屋の仕事ってすっごく少ないんですが、理由として「広告で統計を嘘に使っている」ということがあります。 例えば、 「牛乳配達の牛乳を飲んでいる人は、寿命が平均寿命よりx%長くなる」 という広告があります。 これは真実です。 ちょっとデータを…

アカデミアはなぜ尊敬され、そして尊敬されなくなったか

イタリアの都市国家について勉強する必要があったので、こちらの本を読んでいました。 イタリア都市社会史入門―12世紀から16世紀まで で、ここに大学の話が出てきます。 これが面白い。 ボローニャには法学部(法学だけの大学)があったのですが、都市におけ…

Amazonランキングと確率論:ロングテールの儚い真実

機械学習系の本ではないのですが、Amazonランキングについて書かれた本を紹介します。 こちらはAmazonランキングの中の人ではなく、ゴリッゴリの数理物理学者が確率論を駆使してAmazonランキングの謎を解き明かしていくという、いわば確率論を用いた推理小説…

ディープラーニングを勉強したければインターンに行け!

この忠告はもう遅い(インターン募集が終わっている)可能性が高いのですが……。 ディープラーニングを勉強したければインターンに行くべきです。 大学で「ディープラーニングを勉強しよう!」と思っても、・分析すべき大規模データが無い。 ・分析する目的が…

再生核ヒルベルト空間

カーネル関数の説明をしたときに飛ばしたんですが、説明を求められた人がいたそうなのでこちらも解説していきます。 最近出たサポートベクトルマシンの専門書でも、再生核ヒルベルト空間については解説が入っていないことが多い。 良く見かけるであろうこの…

衰退する日の丸半導体:次のステージへの転身失敗

こんな記事がありました。 www.jiji.com こういう話を聞くと「トヨタ自動車」を思い出します。 トヨタ自動車は「豊田自動織機」という会社が興した「自動車部」が元です。そこから華麗に転身したわけですね。 日本は「半導体」という「自動織機」から転身で…

数学の苦手な文系の人は数学史という手も

文系の人に教科書通りの群論の話を展開してもなかなか伝わりません。 歴史好きな人であれば、こちらの本を試してみましょう。 19世紀の数学〈1〉数理論理学・代数学・数論・確率論 どうも文系の人は、・誰が ・どういう流れで ・何をやったのかというセット…

Twitterのトレンドはひらがなカタカナ混合語が苦手

Twitterのトレンドに、ときどき不思議な単語が載ることがあります。 今回は「フレスタンプ」でした。 これは、大ヒットアニメ「けものフレンズ」の「LINEスタンプ」がバズッたことによるものです。しゃべるけもフレスタンプとか使いまくるわ #けものフレンズ…

Twitterの「ハイライト」機能削除は難敵

先日Twitterのタイムラインを時間順に戻す方法の話をしたんですが、kenichia.hatenablog.com これでもまだ治らないという連絡が。 見に行くと、「新着ツイートのハイライト」 が悪さをしていました。 コイツはなかなかの難敵で、「設定」の中に項目がありま…

Twitterのタイムラインが時間順にならなくなった

Twitterを使った研究をしておりますと、当然Twitterについて聞かれることが多くなります。 そのなかで、ダントツで多い質問が 「いつのまにかTwitterが時間順に並ばなくなり、見にくくて非常に困っている」 というものです。 これは、「重要な新着ツイートを…

むげんしょうかいせき

「無限小解析」と入力しようと思ったら、「夢幻蒋介石」と誤変換された。 そんな蒋介石はいらん!

「おらいりーちほー」のサーバルちゃん

良く聞かれたのでメモ。 O'Reillyでサーバルが表紙を飾っているのは『Javaパフォーマンスチューニング 第2版』です。 Javaパフォーマンスチューニング 第2版

仮想環境ソフトAnacondaの歴史(2017/3/10バージョン)

Anacondaは「先導的なオープンデータサイエンスのプラットホーム」らしいです。開発元によれば。Download Anaconda Now! | Continuum 対応しているのはPython, R, Scala。 で、このAnacondaに「我々の名高い」パッケージ&依存&環境マネージャであるcondaが含…

ロジスティック関数とシグモイド関数

ロジスティック関数はもともと生物の個体数の変化を表すモデルに用いられる関数でした。 なので、「時間 t = 0 における初期個体数を加えた形」がもとのロジスティック関数です。 ところが、機械学習で用いるロジスティック関数は初期個体数を加えません。 …

『Python機械学習プログラミング』のKerasで引っかかる

『Python機械学習プログラミング』をおすすめした人から、Kerasのところでつまづいたとのこと。 エラー文を見せてもらうと、 from keras.utils import np_utils Using TensorFlow backend. Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/</module></stdin>…

プログラマから見たソフトマックス関数

機械学習において、ソフトマックス関数はロジスティック回帰の一般化としてとして現れます。ロジスティック関数のあとで説明されるのが通例です。 式はこちら。 ソフトマックス関数 - 機械学習の「朱鷺の杜Wiki」 多クラス分類問題に用いられます。 以前から…

目標値を{-1,1}にする理由

問題によって、目標値を{0,1}ではなく{-1,1}にするときがあります。 こうすることによって、が1になります。式中からを吹き飛ばすことができるわけです。 微分を行う場合、計算が楽になるように係数に1/2を入れておくのと同じようなテクニックですね。

機械学習(カーネル法)におけるグラム行列

数学的(線形代数学的)にはグラム行列とは正方行列Aが与えられたときに、その随伴行列A*とAを掛け合わせたA*A(この*は掛け算ではなく随伴行列記号)のことをAのグラム行列と言います。 随伴行列とは複素数を成分にとる m×n 行列 A に対して、1) 転置して 2) …

Chromeでエンコードはできなくなりました

表示の高速化を図るため、Chrome バージョン55 からエンコード機能がなくなりました。(今までは「ツール」>「エンコード」が存在したがなくなっている)とりあえず Chrome はもう使わなくていいや。 ユーザにすれば「速いかどうか」よりも「見えるかどうか…

Ubuntu で vi のバージョンアップ(フルパッケージvim化)

CentOS から Ubuntu に移るとキレる人がいます。 特に vi を使用していた人がキレやすい。CentOSのviで使えていた機能が軒並み存在しないからです。 これは、Ubuntu に最初からインストールされている vi が Vim-Tiny といって、vim でありながらオリジナル…

北野坂備忘録の人気記事

ブログを開始して一年ほど経過しましたので、人気のある記事を見ていきたいと思います。 1位 kenichia.hatenablog.com これは安定して読まれてますね。 2位 kenichia.hatenablog.com 素人向け・機械学習初心者向けに書いているせいか、「言語処理100本ノック…