HOME / 研究展示 / 世界中から対訳を探します
研究展示
コミュニケーションと計算の科学
07

世界中から対訳を探します

機械翻訳モデル訓練のための大規模対訳コーパス構築技術

世界中から対訳を探します
どんな研究

機械翻訳システムは、訓練データとして対訳文対(お互いに翻訳である文の対)を大量に必要とします。われわれはインターネット(Web)や特許出願アーカイブに点在する対訳データを収集して対訳コーパス(対訳データベース)を構築する技術の研究を行っています。

どこが凄い

Web対訳コーパスJParaCrawlクラウドソーシングを活用することで多くの対訳データをWebから効率的に収集し構築しました。特許対訳コーパスJaParaPatは、データ収集とモデル訓練を交互に繰り返すことで対訳データの品質を高めました。どちらも公開されている中では世界最大の日英対訳コーパスです。

めざす未来

専門用語が豊富な医療や金融など特定の分野、中国語と日本語など特定の言語対について高品質な対訳データを自動的に収集する技術をさらに高め、お客様のニーズに応じて独自にカスタマイズできる機械翻訳技術の実現をめざします。

世界中から対訳を探します
関連文献

[1] 森下睦, 帖佐克己, 永田昌明, “JParaCrawl v4.0: クラウドソーシングを併用した大規模対訳コーパスの構築,” 言語処理学会第30回年次大会, pp. 2330-2335, 2024.

[2] 永田昌明, 森下睦, 帖佐克己, 安田宜仁, “JaParaPat: 大規模日英特許対訳コーパス,” 言語処理学会第30回年次大会, pp. 2367-2372, 2024.

ポスター
連絡先

永田 昌明(Masaaki Nagata)協創情報研究部 言語知能研究グループ

他の研究展示はこちら