読者です 読者をやめる 読者になる 読者になる

北野坂備忘録

主にインストールやプログラミングのメモを載せています。

Twitterのトレンドはひらがなカタカナ混合語が苦手

Twitterのトレンドに、ときどき不思議な単語が載ることがあります。 今回は「フレスタンプ」でした。 これは、大ヒットアニメ「けものフレンズ」の「LINEスタンプ」がバズッたことによるものです。しゃべるけもフレスタンプとか使いまくるわ #けものフレンズ…

Twitterの「ハイライト」機能削除は難敵

先日Twitterのタイムラインを時間順に戻す方法の話をしたんですが、kenichia.hatenablog.com これでもまだ治らないという連絡が。 見に行くと、「新着ツイートのハイライト」 が悪さをしていました。 コイツはなかなかの難敵で、「設定」の中に項目がありま…

Twitterのタイムラインが時間順にならなくなった

Twitterを使った研究をしておりますと、当然Twitterについて聞かれることが多くなります。 そのなかで、ダントツで多い質問が 「いつのまにかTwitterが時間順に並ばなくなり、見にくくて非常に困っている」 というものです。 これは、「重要な新着ツイートを…

むげんしょうかいせき

「無限小解析」と入力しようと思ったら、「夢幻蒋介石」と誤変換された。 そんな蒋介石はいらん!

「おらいりーちほー」のサーバルちゃん

良く聞かれたのでメモ。 O'Reillyでサーバルが表紙を飾っているのは『Javaパフォーマンスチューニング 第2版』です。 Javaパフォーマンスチューニング 第2版

仮想環境ソフトAnacondaの歴史(2017/3/10バージョン)

Anacondaは「先導的なオープンデータサイエンスのプラットホーム」らしいです。開発元によれば。Download Anaconda Now! | Continuum 対応しているのはPython, R, Scala。 で、このAnacondaに「我々の名高い」パッケージ&依存&環境マネージャであるcondaが含…

ロジスティック関数とシグモイド関数

ロジスティック関数はもともと生物の個体数の変化を表すモデルに用いられる関数でした。 なので、「時間 t = 0 における初期個体数を加えた形」がもとのロジスティック関数です。 ところが、機械学習で用いるロジスティック関数は初期個体数を加えません。 …

『Python機械学習プログラミング』のKerasで引っかかる

『Python機械学習プログラミング』をおすすめした人から、Kerasのところでつまづいたとのこと。 エラー文を見せてもらうと、 from keras.utils import np_utils Using TensorFlow backend. Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/</module></stdin>…

プログラマから見たソフトマックス関数

機械学習において、ソフトマックス関数はロジスティック回帰の一般化としてとして現れます。ロジスティック関数のあとで説明されるのが通例です。 式はこちら。 ソフトマックス関数 - 機械学習の「朱鷺の杜Wiki」 多クラス分類問題に用いられます。 以前から…

目標値を{-1,1}にする理由

問題によって、目標値を{0,1}ではなく{-1,1}にするときがあります。 こうすることによって、が1になります。式中からを吹き飛ばすことができるわけです。 微分を行う場合、計算が楽になるように係数に1/2を入れておくのと同じようなテクニックですね。

機械学習(カーネル法)におけるグラム行列

数学的(線形代数学的)にはグラム行列とは正方行列Aが与えられたときに、その随伴行列A*とAを掛け合わせたA*A(この*は掛け算ではなく随伴行列記号)のことをAのグラム行列と言います。 随伴行列とは複素数を成分にとる m×n 行列 A に対して、1) 転置して 2) …

Chromeでエンコードはできなくなりました

表示の高速化を図るため、Chrome バージョン55 からエンコード機能がなくなりました。(今までは「ツール」>「エンコード」が存在したがなくなっている)とりあえず Chrome はもう使わなくていいや。 ユーザにすれば「速いかどうか」よりも「見えるかどうか…

Ubuntu で vi のバージョンアップ(フルパッケージvim化)

CentOS から Ubuntu に移るとキレる人がいます。 特に vi を使用していた人がキレやすい。CentOSのviで使えていた機能が軒並み存在しないからです。 これは、Ubuntu に最初からインストールされている vi が Vim-Tiny といって、vim でありながらオリジナル…

北野坂備忘録の人気記事

ブログを開始して一年ほど経過しましたので、人気のある記事を見ていきたいと思います。 1位 kenichia.hatenablog.com これは安定して読まれてますね。 2位 kenichia.hatenablog.com 素人向け・機械学習初心者向けに書いているせいか、「言語処理100本ノック…

日本のオープンデータは構造的に失敗する

今日はいつもと違ってオープンデータのお話です。 「オープンデータ」という言葉が言いだされてからかなりたちましたが、日本での成功例はあまりありません。 これは構造的なものです。 基本的に、アメリカ(オープンデータの本場はイギリスですが)でうまく…

(カーネル法における)カーネル関数とは何か 

Wikipedia と しましま先生 の「カーネル」の項目を読んで、 「分からんわ-!」 と叫びながら壁に頭を打ちつけ続けたみなさん、こんにちは。 あなたは正常です。 いったい日本人のうちの何人があれを見て 「あっ、カーネル関数ってこういうことなんだー!」…

mecab-ipadic-neologd のアップデート失敗

mecab-ipadic-neologd のアップデートに失敗、その後成功しましたのでご報告を。 sudo /mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n (なんやかやあって) ../libexec/make-mecab-ipadic-neologd.sh: line 102: /usr/bin/mecab-config: そのよ…

Twitter API用のtoken入手時に求められる携帯番号入力時の認証が失敗する

Twitter API用のtoken入手時に、携帯電話番号の登録を要求されるようになっていました。 (前はなかったと思うんですが……) 電話番号を登録し、届いたTwitter認証コードを入力するんですが、 失敗しました。 と言われます。 何度繰り返してもダメだったので…

機械学習のための線形代数本

「『機械学習を理解するためには代数を勉強しろ』と言われたが、代数の教科書を読んでもどこが機械学習に役立つのか全く分からない」という話を聞いてその人が読んでいる本を見せてもらったところ、代数の教科書でも群論とか環論の本でした。 「勉強しろと言…

黄色本(PRML)は「機械学習」の本ではなく「ベイズ理論」の本である

タイトルはいささか暴論ですが。 パターン認識と機械学習 上 私はもともとこの本を「機械学習の教科書」だと思って読み始めました。タイトルが『パターン認識と機械学習』ですからね。 最初に無理矢理読み通した感想は「難しい、良く分からない」というもの…

計画行列(デザイン行列)とは何か:PRML編

黄色本(『パターン認識と機械学習』:PRML)を読んでいると、「計画行列」という単語が頻繁に出てきます。 この計画行列ですが、英語では「design matrix」です。なので別書籍では「デザイン行列」と書かれていることもあります。 日本語で「デザイン」とい…

postgresqlの特定テーブルのみのバックアップ

なぜかpg_dumpを使ってpostgresqlの特定テーブルのみをバックアップするコマンドが、インターネット上で流布しているコマンドと実際のコマンドで違っていたのでメモ。 postgresqlのバージョンは8.4.20。[ネット上でよく見かける(今回動かなかった)コマンド…

CentOS上のEclipseにプラグインを一気にインストールしようとして失敗

CentOS6.7のEclipse(Helios)に下記の3プラグインを一気にインストールしようとするがエラーを起こして止まる。・Marketplace Client ・Eclipse Java EE Developer Tools ・Eclipse Web Development Tools "インストール・ダウンロード2" 中に内部エラーが発…

python3.5をpython3のデフォルト設定にしたらUbuntuで「端末」が起動しなくなった件

ぐへえ、という感じ。 Ubuntu15.04で、apt-getでpython3.5をインストールしたのち、python3.5をpython3のデフォルトに設定しました。 cd /usr/bin sudo rm python3 sudo ln -s python3.5 python3 再起動したら「端末」が起動しない!? Launcherを押しても、…

gensimのshow_topicsオプション(メモ)

Python用のトピックモデルライブラリgensimのshow_topicsメソッド内で用いられるオプションについて。昔はこうだった lda.show_topics(topics=10, topn=10):今はこう lda.show_topics(num_topics=10, num_words=10) いま上のように書くと「そんなオプション…

MeCabのparseToNodeのひどいバグ

pythonからMeCabのparseToNodeを使うと表層形(surface)がおかしい。printでも出てこないし型の判別すらできない。 頭を抱えながらpython-mecabの再インストールなどさんざんやってからこちらのサイトにたどりつく。 www.trifields.jp (以下引用) MeCabの…

『Python機械学習プログラミング』

Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear) なにかこう「一面コードだらけ」という本かなーと想像していたんですが、理論や描画の話も多く前処理にも章を割いています。本のアオリに「絶妙なバランスで『…

hadoopメモ

clusteridは簡単に変わる。 そのせいでDataNodeが繋がらなくなる。 解決方法 ・手動でdfs/name/current/VERSION内のClusterIDを修正する。 ・さっくりdfs/name/以下を削除する。

「下丸子のコネクショニスト」さんの「CaffeでMNISTを学習した経過をプロットしてみた」を試す

「下丸子のコネクショニスト」さんの iamrobotandproud.hatenablog.com を試す。 なにかおかしいと思ったら、 事前に用意されたプログラムに誤植があるため、下記のように訂正した。plot_log.gnuplot.exampleの42, 43行目をset xlabel "Training loss" set y…

『パターン認識と機械学習』(黄色本)再読

PRML(『パターン認識と機械学習』)の上巻に再度手を伸ばしました。 パターン認識と機械学習 上 去年の5月ぐらいに読んだときは全く理解できなかった内容が「これも分かる!あれも分かる!」となり、まるで『グラップラー刃牙』の序盤で山籠もりの結果勇次郎…

Ubuntu15.04 に Caffeをインストールした際のメモ

hdf5関係でコンパイル失敗。2箇所でひっかかる。 ./include/caffe/data_layers.hpp:9:18: fatal error: hdf5.h: no such file or directory/usr/bin/ld: cannot find -lhdf5_hl /usr/bin/ld: cannot find -lhdf5Makefile.configの以下の2行を変更。 INCLUDE_…

軽量言語からJavaに移って苦労している人はデザインパターンの本を読むと良い

デザインパターンの本は何冊か読みましたが、当時はいまひとつピンときませんでした。 行番号付きBASICからはじまってC言語、Ruby、R、Pythonとクソコードを書き散らしてきましたが、あまりデザインパターンの必要性を感じなかった。 話が変わったのがJavaに…

VMWare上のUbuntuのネットワークが不安定(メモ)

ひっさしぶりに立ち上げたVMWare上のUbuntuのネットワークが不安定。 しばらくすると切れるけども、また接続される。 これでは仕事にならない。 VMWareの「仮想マシン設定」を確認。 ネットワークアダプタがNATになってる……? 別件で別のVMの「仮想マシン設…

正規方程式とは何か

数学の得意な人間はだいたいにおいてそうでない人間から見るとたいへん冷たいです。 「正規方程式とは何か?」という文系からの問いに、「最小二乗法を勉強すれば分かるでしょう?」という、木で鼻をくくったような回答をします。 そもそも文系からすると「…

VMWare追加ネットワークアダプタ設定の罠

ネットワークアダプタ2を追加する。 ネットワークアダプタ(無印)側の「アダプタの設定」を変更する。 これを こうすると…… 「ネットワークアダプタ2」の設定まで勝手に連動して変わってる! ネットワークアダプタ追加する意味がないだろ! ※昔のVMWareでは…

パチンコ配分モデル

トピックモデル本を読んでいると、 トピックモデル (機械学習プロフェッショナルシリーズ) 「パチンコ配分モデル」というパワーワードに突き当たりました。 名前だけでイメージするとまるで「パチンコ玉を配分するようなモデル」に思えますが、実際にはパチ…

条件付き確率でどっちが条件か覚えられない!

いい歳をして右と左が分からない人がいます。 同様に、いつまでたっても条件付き確率 p(A|B) でどちらが条件部分か覚えられない人がいます。 というか、「条件付き確率」という日本語のせいで、 p(条件|確率) に思えてしまうようです。 ここは疑似的に「条件…

Excelのセル内改行の削除(前処理編)

前処理でExcelのセル内改行を削除したいときがあります。 Excelのセル内改行を削除する方法としては、 ・検索ボックスで「[Ctrl] +[J]」を入力して置換する 方法が有名ですが、なぜかそれでは取り切れないセル内改行が存在します。 これには、clean関数を使…

マハラノビス距離(メモ)

マハラノビス距離はインド人の数理統計学者プラサンタ・チャンドラ・マハラノビスによって発明されました。 「分散を考慮に入れた距離」とでも申しましょうか。 マハラノビス距離を知るのにオススメのサイトはこちら。 「教師なし学習による異常値検知: マハ…

Wekaはこの先どうなるのか

「フリーソフトではじめる機械学習入門」という良くできた機械学習の入門書があります。 フリーソフトではじめる機械学習入門 ただし、使われているのがWeka。 「この先Wekaを使うことがあるのか……?」と問われると答えに窮する。 Wekaを使うとどうしてもブ…

観測データの無相関化(メモ)

特徴間に相関があると、識別には片方の特徴だけでよい、ということになる。 主成分分析と無相関化は「分散が最大になる方向へと射影する」というアプローチは同じだが、 無相関化:識別に多くの特徴を採用するため、特徴間の相関をなくす。 主成分分析:情報…

eclipse初心者によくあるミス(Servletのコピー)

Servletを単純にコピー&ペーストして開発。 ↓ しばらくするとサーバ(Tomcat)が起動しなくなる。 重大: A child container failed during start(理由) コピー後に@WebServletを変更しなかったため。 同じ@WebServlet名のServletが複数あると上記のエラーを…

共分散行列(メモ)

正確には分散・共分散行列。対角行列は共分散ではなく分散であるため。 共分散とは2 組の対応するデータ間での、平均からの偏差の積の平均値。 分散 共分散 共分散 共分散 分散 共分散 共分散 共分散 分散 スカラー値における分散をベクトルに拡張したもの。…

『岩波データサイエンス Vol.3』[特集] 因果推論 実世界のデータから因果を読む

岩波データサイエンス Vol.3 今回はマーケティングや投薬効果といった何か施策を考えるタイプの分析をする人向け。 その施策は本当に効果があるのか? ただの相関関係ではないのか? 隠れた外部変数があるのではないか? などということを問う。 自然言語処…

Caffe Make時に必要なprotocのインストール(CentOS)

※CentOSにCaffeを入れるのはまったくおすすめしません。遥かに簡単ですので、Ubuntuを使ってください。 分かりやすい導入記事はコチラ。 http://www.nal.ics.es.osaka-u.ac.jp/personal/k-yamanishi/CaffeUbuntu.html _____________________________________…

トンネルズ&トロールズ

情報処理 2016年01月号 『情報処理』2016年1月号の「自然言語処理の現状と展望」という特集を読んでいたのですが、「言い換え技術」の例文で 「『トンネルズ&トロールズ第5版』はケン・セント・アンドレらによってデザインされた.」 というピンポイント爆…

あなたにとって英語のゴールは?

TOEICのスコアが850を超えるとそろそろ英語学習のゴールのことを考えないといけません。 3パターンほど考えられます。1. 研究のために英語力をつけたい TOEIC850もあれば自分の専門分野の論文を読む分には能力はほぼ不足していないはずです。TOEICの勉強は一…

最後はTOEIC公式問題集

TOEICテスト公式問題集 新形式問題対応編 最後の最後に行きつくのはコレです。最も間違った公式問題集の使用方法 「本番の一週間前に総仕上げとして実戦形式でやってみるぜ!」 ちがあああああああう! やめろおおお!スコア500~700の人 出来が悪くて心に傷…

究極のTOEIC文法問題集(過適合編)

邪道編その2です。 TOEICのスコアが800を超え、特にリーディングで伸びしろが無くなって来た時に頼るべき文法問題集がこちら。 新TOEICテスト 文法問題 でる1000問 こいつは完全にTOEICの特にPart5に特化しています。 この本をマスターすればPart5を異様なス…

公式問題を読む & 耳を育てる

今回は若干「邪道」です。 TOEICテスト 公式問題で学ぶボキャブラリー この本、「ボキャブラリー」目当てで買うとガッカリします。そんなに単語力が上がるとは思えない。 役に立つのは添付のCDと公式問題の長文のほうです。 実はこの公式問題CD、あのTOEICテ…