NTTコミュニケーション科学基礎研究所
協創情報研究部
知識処理研究グループ
(注意:日本電信電話株式会社です。NTTコミュニケーションズ株式会社ではありません。)
English page

ニュース

アクセス

研究トピック

自然言語処理研究は、今、大きな転換点にいます。 我々のグループでは、自然言語処理に適した半教師あり学習の手法を考案し、 10億語という大規模なラベルなしデータによって、 品詞タグづけ、構文チャンキング、固有表現抽出という 3つの英語ベンチマークデータで、世界最高の性能を達成しました。 また、意味解析の中心として多様かつ曖昧な因果表現をマイニングし、 「なぜ」という質問に答える日本語質問応答システムNAZEQA (ナゼカ)を実現しました。 NTTでは、自然言語処理や知識処理の研究を、 サイバースペース研究所(SP研)サイバーソリューション研究所(SL研) でも行なっていますが、これらの研究所はNTTの事業への貢献が求められています。 一方、CS研は、基礎研究所として、 革新的な技術の創出を求められています。

統計的機械翻訳
これまで、機械翻訳の分野では、各言語の専門家が自分の持っている知識を プログラム化する、という手法が主流でした。 しかし、この手法では、プログラムの構築・維持管理に膨大な手間がかかる という問題があります。

これに対して、最近は、異なる言語で書かれた同じ内容の文を集めた「対訳データ」 を大量に用意し、単語やフレーズなどの対応関係を統計的に求めることによって 翻訳システムを作る「統計的機械翻訳(Statistical Machine Translation, SMT)」 と呼ばれる手法が現れてきました。

これにより、ある程度の品質の翻訳システムを短期間に構築することが 容易になりました。 我々は、できるだけ正確で読みやすい翻訳が得られるように、研究を進めています。

半教師あり学習
「形態素解析」「チャンキング」「固有表現抽出」などの自然言語処理の基本ツールは、 「教師あり学習」で十分よい精度が出ているように見えます。 なぜ「半教師あり学習」なのでしょうか?

まず、現状のツールの精度は必ずしも十分ではありません。たとえば、英語の品詞タグづけの精度は 97%を超えています。しかし、1文には普通、数十の単語が含まれているので、 1文中のすべての単語が正しくタグづけされる可能性は、数十%しかないことになります。

人名・組織名などの固有表現抽出では、未知語を正しく分類できるかどうかが

実際、質問応答システムなどの失敗例の解析を行なうと、 これらのツールの出力の誤りに行きあたることが少なくなく、 さらなる精度向上が求められています。

教師あり学習で精度を向上させるには、人間が正解データをたくさん作らなければなりませんが、 精度が向上するにつれて、かけた労力に見あう精度向上は得られなくなります。

そこで、人間が正解をこれ以上用意しなくてよい「半教師あり学習」の研究を行なっています。

質問応答
これまで、固有名詞や数値表現のようないわゆる固有表現を回答するファクトイド型の質問応答 の研究がされてきました。我々のグループでも、 SAIQAという日本語質問応答システムや、 日本語の質問の答を英語の文書から探しだす 日英言語横断質問応答システムを作成してきました。 今、我々は、もっと多様な質問に答えられるシステムを目指しています。 とくに最近は、「なぜ」という質問に答えられる NAZEQAを作っています。

最近の成果

メンバー

受賞

(C) NTT Communication Science Labs.