北野坂備忘録

主にインストールやプログラミングのメモを載せています。

2016-02-01から1ヶ月間の記事一覧

言語処理100本ノック 2015年版 (78,79)

78. 5分割交差検定 76-77の実験では,学習に用いた事例を評価にも用いたため,正当な評価とは言えない.すなわち,分類器が訓練事例を丸暗記する際の性能を評価しており,モデルの汎化性能を測定していない.そこで,5分割交差検定により,極性分類の正解率…

言語処理100本ノック 2015年版 (74~77)

74. 予測 73で学習したロジスティック回帰モデルを用い,与えられた文の極性ラベル(正例なら"+1",負例なら"-1")と,その予測確率を計算するプログラムを実装せよ. 今度は重みベクトルを使って文の極性ラベルを計算していきます。 与えられた文は74test.t…

言語処理100本ノック 2015年版 (73)

今日は73番だけでいきます。 73. 学習 72で抽出した素性を用いて,ロジスティック回帰モデルを学習せよ. ロジスティック回帰モデルとは、「確率化された分類モデル」の一種です。「確率化された分類モデル」は全体の確率を0から1までの間に押し込まないと…

言語処理100本ノック 2015年版 (70~72)

第8章: 機械学習 本章では,Bo Pang氏とLillian Lee氏が公開しているMovie Review Dataのsentence polarity dataset v1.0を用い,文を肯定的(ポジティブ)もしくは否定的(ネガティブ)に分類するタスク(極性分析)に取り組む. このあたりからついてこれ…

「言語処理100本ノック 第8章:機械学習」対策本

そろそろ自然言語処理に関する何の知識もなしにプログラミングしていくのは難しいと思うので、第8章を迎えるにあたり一冊だけ本を紹介したいと思います。 言語処理のための機械学習入門 (自然言語処理シリーズ) わりと薄いけれども必要な情報がみっちり詰ま…

本日の発音

status は「ステータス」ではなくて「スタータス」(カナダ人)

言語処理100本ノック 2015年版 (64~69)

第7章の後半はMongoDBを使っていきます。 64. MongoDBの構築 アーティスト情報(artist.json.gz)をデータベースに登録せよ.さらに,次のフィールドでインデックスを作成せよ: name, aliases.name, tags.value, rating.value CentOSではMongoDBは簡単にイン…

言語処理100本ノック 2015年版 (60~63)

第7章: データベース artist.json.gzは,オープンな音楽データベースMusicBrainzの中で,アーティストに関するものをJSON形式に変換し,gzip形式で圧縮したファイルである.このファイルには,1アーティストに関する情報が1行にJSON形式で格納されている.JS…

言語処理100本ノック 2015年版 (55~59)

55. 固有表現抽出 入力文中の人名をすべて抜き出せ. Named Entity Recognition は直訳すると「名前符号認識」ですが、現在は一般的に「固有表現抽出」と呼ばれています。 今回はこのNERタグを用います。 #!/usr/bin/env python import codecs import copy i…

言語処理100本ノック 2015年版 (50~54)

第6章: 英語テキストの処理 英語のテキスト(nlp.txt)に対して,以下の処理を実行せよ. 50. 文区切り (. or ; or : or ? or !) → 空白文字 → 英大文字というパターンを文の区切りと見なし,入力された文書を1行1文の形式で出力せよ. 上記の条件を正規表現…

本日の聞き間違い

オーストラリア人に、「cottage cheese(カッテージチーズ)はどこですか?」と聞かれたので怪訝そうな顔をしていたら、「cartridge(カートリッジ)はどこですか?」 だった。

言語処理100本ノック 2015年版 (46~49)

5章後編に突入。 46. 動詞の格フレーム情報の抽出 45のプログラムを改変し,述語と格パターンに続けて項(述語に係っている文節そのもの)をタブ区切り形式で出力せよ.45の仕様に加えて,以下の仕様を満たすようにせよ. 項は述語に係っている文節の単語列…

言語処理100本ノック 2015年版 (40~45)

プログラムの量が多くなってきたので2回に分ける。 CaboChaのインストールで一苦労。 さて、何の指示もされていないがCaboChaはテキストをそのまま放り込むとツリー表示になる。このままでは役に立たない。 本問では「係り受け解析結果」を使用するので、-f1…