NTTコミュニケーション科学基礎研究所 研究内容紹介 協創情報研究部04

title_research.gif

index.gif

title_innovative_icon.gif
title_innovative.gif
title_innovative_2.gif

自然言語処理

ことばの意味を理解したテキスト分析

私たちはコンピュータが人間の言葉の意味を理解し、情報の抽出・翻訳・要約・分類などを自動的に行う技術の研究をしています。特に高精度な言語解析を実現するための機械学習技術や大規模な意味・概念データベースを構築する方法について研究しています。

■どのように使われるのか?

インターネットの発展に伴い、ブログやSNSなど様々なプロフィールの人が書いた様々な質・観点のテキストデータが身の回りにあふれており、評判分析や違法・有害情報検出など、これらのテキストの内容を分析してビジネスやサービスに活用したいというニーズが高まっています。
また社会のグローバル化に伴い、様々な分野において外国語で書かれた最新の情報を入手したり、外国の方と言葉の壁を越えてコミュニケーションするための手段として機械翻訳への期待が高まっています。
しかし、インターネットに多い口語的なくだけた文章や人間同士のコミュニケーションで実際に使われる話し言葉は、単語や文法の誤りを含み、文脈から分かる内容は省略されてしまうので、表層的な文字列処理により、ことばの意味をコンピュータで正確に分析することは困難です。
そこで、言語表現や実世界の事物・事象に関する知識を大規模テキストから構築したり、様々な知識を有効に活用する機械学習法を考案することにより、ことばの意味の理解を必要とするアプリケーションのための高精度な言語解析技術を実現しています。

innovative_4_1.jpg

■半教師あり学習による高精度な係り受け解析技術

正解が付与されたデータだけでなく、正解が付与されていないデータを利用する「半教師あり学習」により、Web等の大規模テキストデータを活用して高精度な依存構造解析(係り受け解析)を実現する技術を考案しました。英語の依存構造解析において世界最高精度を達成しています。この技術を使えば、機械翻訳や評判分析の精度を向上できます。

innovative_4_2.jpg

■多様な表現から主語・目的語等を判別する述語項構造解析技術

「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な正解データから自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、述語に対する主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定することができます。この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。

innovative_4_3.jpg

■国内最大級のシソーラス「日本語語彙大系」等の言語資源

高度な言語解析に必要な様々な言語データベースを独自に構築し、研究に活用しています。それらの一部は「日本語語彙大系」、「日本語の語彙特性」、「基本語データベース」などの書籍として出版しています。

innovative_4_4.jpg