NTTコミュニケーション科学基礎研究所 研究内容紹介 協創情報研究部03

title_research.gif

index.gif

title_innovative_icon.gif
title_innovative.gif
title_innovative_2.gif

統計的機械翻訳

手間をかけずに翻訳システムを作ります

統計的機械翻訳(以降、統計翻訳)は、学習用のテキストデータから統計モデルを学習し、それを用いることで自動的に機械翻訳システムを実現する技術です。統計モデルは翻訳モデルと言語モデルの二種類から成ります。翻訳モデルは、訳語の尤もらしさを規定する統計モデルで、対訳データ(お互いが翻訳となっている文の対を集めたデータ)から学習します。言語モデルは、出力言語の単語の並びの尤もらしさを規定する統計モデルで、出力言語の単言語データから学習します。翻訳器は、この二つの統計モデルを用いて膨大な仮説の中から確からしい単語列を探索する処理として実現されます。統計翻訳技術は、学習データさえあれば、低コストに短期間で性能のよい翻訳システムを作ることを可能にします。

innovative_3_1.gif

■どのように使われるのか

従来のルールベース翻訳技術は、入出力の両言語のわかるエキスパートによって翻訳ルールの開発が必要であり、多言語化は困難でした。それに対し、統計翻訳は、アルゴリズムが言語にほとんど依存しないため、学習用のテキストデータさえ用意すれば、どんな言語の機械翻訳も実現できます。多言語サービスに最適な技術です。また統計モデルは学習データに自動的に適応するため、どんな特殊な分野の翻訳システムでも構築できます。新聞、マニュアル、特許等の公文書はすでに膨大な翻訳が存在します。これらの特定分野の自動翻訳サービスにも最適な技術です。
実用化に際しては、対訳データの確保が鍵となります。業務フローの中で対訳データが日々作られ続けるような事業領域で,本技術は本領を発揮します。一例として、翻訳者の翻訳支援は一つの有望な適用先だと考えられます。



近年、統計翻訳は西洋言語間のように語順の近い言語間で、従来のルールベース翻訳を凌ぐほどの翻訳精度を達成しつつあります。しかしながら、日本語-英語間のように、語順の大きく異なる言語間においては、翻訳精度はあまり高くありません。NTTでは、構文情報を活用した翻訳手法で、この問題に取り組んでいます。

■階層的な句に基づく統計翻訳

対訳データから自動獲得される構文(階層的な句)に基づく効率的な翻訳手法を開発しました。さらに、きめの細かい翻訳を実現するために、膨大な素性(特徴)を活用した手法も合わせて開発しました。

innovative_3_2.gif

■事前並び換えに基づく英日翻訳

日本語は、句の中心となる表現(主辞)が句(名詞句、動詞句など)の末尾に配置される特性があります。英語の主辞を予め句の末尾に並び替えることで、英語を日本語の語順に並び替えることが可能です。このような事前並び換えを行った後に翻訳することで、高い精度の英日翻訳を実現しました。

innovative_3_3.gif

■語順を考慮した翻訳自動評価尺度

統計翻訳の学習は、翻訳の自動評価尺度に基づき行われます。性能のよい統計翻訳を実現するためには、よい自動評価尺度を開発することが重要な課題の一つです。従来の評価尺度は、日本語-英語のように語順の大きく異なる言語間の翻訳を正しく評価できない問題がありました。NTTは、RIBES(Rank-based Intuitive Bilingual Evaluation Score)という語順の順位相関に基づく評価尺度を考案し、語順の大きく異なる言語間の評価を可能にしました。