13 |
過不足のない忠実な機械翻訳を実現します単語対応を用いた大規模言語モデル機械翻訳の選好最適化 ![]() |
---|
どんな研究 |
大規模言語モデルを用いた機械翻訳では、原文の一部が翻訳されない「訳抜け」、原文にない内容が訳文に生成される「ハルシネーション」等の誤りが発生します。本研究では原文と訳文で同じ意味を持つ単語のペアを見つける単語対応技術を用いて誤りを軽減する手法を考案しました。 |
---|---|
どこが凄い |
Wikipediaから同じ対象に言及する異なる言語の文のペアを収集してモデルを訓練することで、世界最高精度の単語対応技術を実現しました。単語対応を用いて、訳文の単語が原文の単語をより多くカバーするように翻訳を制御することでカバー率が約5%向上し、訳抜け等が減少しました。 |
めざす未来 |
今後は、代名詞の指示対象、文体、語彙などの一貫性を保ちながら、流暢に長いテキストを生成できる大規模言語モデルの特長を活かしつつ、原文に対する訳文の忠実度をさらに高めて、特許・法律・医療など厳密さを重視する分野に適用可能な機械翻訳技術をめざします。 |

[1] Q. Wu, M. Nagata, Y. Tsuruoka, “WSPAlign: Word alignment pre-training via large-scale weakly supervised span prediction,” in Proc. The 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023), 2023.
[2] Q. Wu, M. Nagata, Z. Mao, Y. Tsuruoka, “Word alignment as preference for machine translation,” in Proc. The 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 2024), 2024.
永田 昌明(Masaaki Nagata)協創情報研究部 言語知能研究グループ