北野坂備忘録

主にインストールやプログラミングのメモを載せています。

2016-02-15から1日間の記事一覧

言語処理100本ノック 2015年版 (55~59)

55. 固有表現抽出 入力文中の人名をすべて抜き出せ. Named Entity Recognition は直訳すると「名前符号認識」ですが、現在は一般的に「固有表現抽出」と呼ばれています。 今回はこのNERタグを用います。 #!/usr/bin/env python import codecs import copy i…

言語処理100本ノック 2015年版 (50~54)

第6章: 英語テキストの処理 英語のテキスト(nlp.txt)に対して,以下の処理を実行せよ. 50. 文区切り (. or ; or : or ? or !) → 空白文字 → 英大文字というパターンを文の区切りと見なし,入力された文書を1行1文の形式で出力せよ. 上記の条件を正規表現…