ホーム / 主な研究成果 / 教師なし単語分割法

教師なし単語分割法 (2009)

« 主な研究成果の一覧にもどる

文を単語に分割することは自然言語処理における最も基礎的な技術です。従来は、人手による教師データ(どのように文を単語に分割するかの実例)を事前に大量に作成しておく必要がありました。本研究では、ベイズ統計モデルに基づく学習アルゴリズムに従って、教師データが付与されていない大量の文書のみから、最も起こりやすい単語とそれらのつながりを推定します。本手法により、図に示すように、源氏物語を単語に分割することに成功しました。