HOME / 講演 / 研究講演
研究講演

気の利く対話AIのための「空気を読む」技術
マルチモーダル情報を用いた対話の場・関係の理解とインクリメンタル応答生成
NTT コミュニケーション科学基礎研究所 協創情報研究部 実世界インタラクション研究グループ 主任研究員
千葉祐弥

概要

大規模言語モデルの進展により、対話システムの応答の自然さは飛躍的に向上しました。しかし、対話システムが日常生活に溶け込み、人間と円滑に会話できるようになるためには、会話の場面や対話者同士の関係を認識し、適切な間合いで応答するなど、「空気を読む」能力が求められます。本講演では、講演者がこれまで取り組んできた研究として、日常会話の様々な状況を把握する対話状況認識、対話者間の関係を理解する親しみ認識、人間らしいテンポや間合いで応答を生成する逐次応答生成技術について紹介します。

関連文献

[1] Y. Chiba, R. Higashinaka, “Analyzing variations of everyday Japanese conversations based on semantic labels of functional expressions,” ACM Transactions on Asian and Low-Resource Language Information Processing (ACM TALLIP), Vol. 22, No. 2, pp. 1-26, 2023.

[2] Y. Chiba, R. Higashinaka, “Dialogue situation recognition in everyday conversation from audio, visual, and linguistic information,” IEEE Access, pp. 70819-70832, 2023.

[3] 辻幸夫, 菅井三実, 佐治伸郎編,第4ことばと対話の多層性,” inことばのやりとり (シリーズ〈ことばの認知科学〉), 朝倉書店, 2024, pp.76-94.

[4] Y. Chiba, A. Ito, “Speaker intimacy estimation in chat-talks based on verbal and non-verbal information,” IEEE Access, pp. 184592-184606, 2024.

[5] Y. Chiba, R. Higashinaka, “Investigating the impact of incremental processing and voice activity projection on spoken dialogue systems,” in Proc. International Conference on Computational Linguistics (COLING), pp. 3687-3696, 2025.

[6] 東中竜一郎, 光田航, 千葉祐弥, 李晃伸, Pythonと大規模言語モデルで作るリアルタイムマルチモーダル対話システム, 科学情報出版, 2024.

講演資料
講演者紹介
千葉祐弥
NTT コミュニケーション科学基礎研究所 協創情報研究部 実世界インタラクション研究グループ 主任研究員
千葉祐弥

2015年東北大学大学院工学研究科博士後期課程修了。博士(工学)。2016年から2020年まで、東北大学大学院工学研究科助教。2020年NT T入社。研究分野は音声対話システム、マルチモーダル対話システム、対話分析など。ISCA、日本音響学会、電子情報通信学会、情報処理学会、言語処理学会各会員。