これに対して、最近は、異なる言語で書かれた同じ内容の文を集めた「対訳データ」 を大量に用意し、単語やフレーズなどの対応関係を統計的に求めることによって 翻訳システムを作る「統計的機械翻訳(Statistical Machine Translation, SMT)」 と呼ばれる手法が現れてきました。
これにより、ある程度の品質の翻訳システムを短期間に構築することが 容易になりました。 我々は、できるだけ正確で読みやすい翻訳が得られるように、研究を進めています。
まず、現状のツールの精度は必ずしも十分ではありません。たとえば、英語の品詞タグづけの精度は 97%を超えています。しかし、1文には普通、数十の単語が含まれているので、 1文中のすべての単語が正しくタグづけされる可能性は、数十%しかないことになります。
人名・組織名などの固有表現抽出では、未知語を正しく分類できるかどうかが
実際、質問応答システムなどの失敗例の解析を行なうと、 これらのツールの出力の誤りに行きあたることが少なくなく、 さらなる精度向上が求められています。
教師あり学習で精度を向上させるには、人間が正解データをたくさん作らなければなりませんが、 精度が向上するにつれて、かけた労力に見あう精度向上は得られなくなります。
そこで、人間が正解をこれ以上用意しなくてよい「半教師あり学習」の研究を行なっています。