HOME / 研究展示 / 「え、なに?どういうこと?」長い話まとめます
研究展示
メディアの科学
14

「え、なに?どういうこと?」長い話まとめます

音声認識誤りに頑健な音声要約

「え、なに?どういうこと?」長い話まとめます
どんな研究

人の話の意図を正しく汲み取る機械の実現をめざして、長い話の要点を的確にまとめる音声要約の研究をしています。音声要約は、人の話を聞く音声認識と、聞いた内容をまとめるテキスト要約で構成されますが、前段の音声認識誤りを完全に無くすことは困難です。本展示では、音声認識誤りに頑健な音声要約技術を提案します。

どこが凄い

音声認識器がいくつかの単語を誤認識しても、話全体の文脈や単語間の関連性を考慮しながら正しく要約する音声要約を実現しました。複数の音声認識器を使うことで、それぞれの認識結果に誤りが含まれていても、精度の高い音声要約を実現します。また本技術は、音声要約のみならず音声翻訳などにも応用できることを確認しています。

めざす未来

人と人、人と機械がお互いに深く理解しあえる未来をめざします。人の言っていることを一言一句聞き取るだけではなく、人が何を意図しているのか、感じているのか、を理解し、人と人、人と機械のより豊かなコミュニケーションを支える音声言語処理技術を研究していきます。

「え、なに?どういうこと?」長い話まとめます
関連文献

[1] T. Kano, A. Ogawa, M. Delcroix, S. Watanabe, “Attention-based multi-hypothesis fusion for speech summarization,” in Proc. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp. 487?494, 2021.

[2] 叶高朋, 小川厚徳, マーク・デルクロア, 渡部晋治, “音声要約のためのBERTを用いた認識仮説統合,” 日本音響学会2022年春季研究発表会

[3] T. Kano, A. Ogawa, M. Delcroix, S. Watanabe, “Integrating multiple ASR systems into NLP backend with attention fusion,” in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022.

展示説明ムービー
動画の公開は終了いたしました。ご了承くださいますようお願いいたします。
Q&A
Q&Aの公開は終了いたしました。ご了承くださいますようお願いいたします。
ポスター
連絡先

叶 高朋(Takatomo Kano) メディア情報研究部 信号処理研究グループ
Email: cs-openhouse-ml@hco.ntt.co.jp

他の研究展示はこちら