北野坂備忘録

主にインストールやプログラミングのメモを載せています。

2016-03-01から1ヶ月間の記事一覧

t-SNE再訪

言語処理100本ノックの99番はこういう図を期待していたのではないか。 どのみち密集している中央部分は全く判別がつかないんですが。 プログラムは以下のとおり。 #!/usr/bin/env python import codecs import re import copy import numpy as np from sklea…

言語処理100本ノック 2015年版 (96-99)

96. 国名に関するベクトルの抽出 word2vecの学習結果から,国名に関するベクトルのみを抜き出せ. 国名って以前やりましたよね。 81で作った国名リストがあるのでそれを使います。 問題はU.Sみたいな前のリストに入れていない国名をどうするか。 後の設問を…

言語処理100本ノック 2015年版 (90-95)

前回90番のプログラムを載せ忘れていたのでまずはそこから。 #!/usr/bin/env python from gensim.models import word2vec data = word2vec.Text8Corpus('80.txt') model = word2vec.Word2Vec(data, size=300) voc=model.vocab.keys() if __name__ == "__main…

イラストで学ぶ機械学習

イラストで学ぶ 機械学習 最小二乗法による識別モデル学習を中心に (KS情報科学専門書) 期待していたのとちょっと違いました。 「機械学習に関するイラストが豊富に載っている」のではなくて、「RPGツクール以下の謎疑似ファンタジー風イラストが大量の数式…

本日の聞き間違い

カナダ人がアップルーボウ(林檎弓)と言ってきたので書いてもらったらapproval(賛成)だった。アプローバルじゃないんだ……。

言語処理100本ノック 2015年版 第9章再訪(2)

(再)85. 主成分分析による次元圧縮 84で得られた単語文脈行列に対して,主成分分析を適用し,単語の意味ベクトルを300次元に圧縮せよ. で、こちらを分散処理基盤で処理していこうと思いました。 岩波データサイエンスvol.2ではどうやって主成分分析してるの…

言語処理100本ノック 2015年版 第9章再訪(1)

84. 単語文脈行列の作成(再) 83の出力を利用し,単語文脈行列Xを作成せよ.ただし,行列Xの各要素X_tcは次のように定義する. f(t,c)≥10ならば,X_tc=PPMI(t,c)=max{log( (N×f(t,c)) / (f(t,∗)×f(∗,c) ) ),0} f(t,c)ここで,PPMI(t,c)はPositive Pointwise…

言語処理100本ノック 2015年版 (90)と手戻り

第10章: ベクトル空間法 (II) 第10章では,前章に引き続き単語ベクトルの学習に取り組む. 90. word2vecによる学習 81で作成したコーパスに対してword2vecを適用し,単語ベクトルを学習せよ.さらに,学習した単語ベクトルの形式を変換し,86-89のプログラム…

言語処理100本ノック 2015年版 (85-89)

(追記)このあたり見事にしくじってますが、後日リベンジしております。 kenichia.hatenablog.com 85. 主成分分析による次元圧縮 84で得られた単語文脈行列に対して,主成分分析を適用し,単語の意味ベクトルを300次元に圧縮せよ. 単語の意味ベクトルを300…

言語処理100本ノック 2015年版 (83,84)

83. 単語/文脈の頻度の計測 82の出力を利用し,以下の出現分布,および定数を求めよ. f(t,c): 単語tと文脈語cの共起回数 f(t,∗): 単語tの出現回数 f(∗,c): 文脈語cの出現回数 N: 単語と文脈語のペアの総出現回数 単語tと文脈語cの共起回数は、ソートをすれ…

言語処理100本ノック 2015年版 (80~82)

第9章: ベクトル空間法 (I) enwiki-20150112-400-r10-105752.txt.bz2は,2015年1月12日時点の英語のWikipedia記事のうち,約400語以上で構成される記事の中から,ランダムに1/10サンプリングした105,752記事のテキストをbzip2形式で圧縮したものである.この…