研究展示

コミュニケーションと計算の科学

少量の追加データで作るカスタム機械翻訳

汎用対訳コーパスJParaCrawlを用いた機械翻訳の領域適応

どんな研究

機械翻訳では、対訳コーパスと呼ばれる学習データから自動で翻訳器を学習します。そのため、特定の領域（分野）に特化した翻訳器を作成するためには、その領域の学習データが大量に必要となっていました。この展示では、少量の追加データだけで翻訳器を特定領域に特化させる技術を紹介します。

どこが凄い

Webデータを大量に収集し、自動的に対訳になっている文を見つけることで大規模な日本語-英語の学習データを作成しました。この学習データは様々な領域を網羅しているため、これを併用することで少量の学習データだけで特定領域への翻訳器を特化させることが可能になりました。

めざす未来

本技術を用いることで、これまで学習データが乏しかったため翻訳精度が低かった領域に対しても、少量の追加学習データで翻訳精度を飛躍的に向上させることが可能になります。将来的には、どの領域に対しても高精度な機械翻訳の実現をめざします。

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。

展示説明ムービー

動画の公開は終了いたしました。ご了承くださいますようお願いいたします。

連絡先

森下睦（Makoto Morishita） 協創情報研究部言語知能研究グループ
Email: cs-openhouse-ml at hco.ntt.co.jp

講演：山田武士 (所長講演)| 大隅典子 (招待講演) | 田中宏 | 黒木忍 | 藤田早苗

研究展示：1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 |
前へ | 次へ

研究展示

コミュニケーションと計算の科学

関連文献

ポスター

展示説明ムービー

連絡先