研究展示

メディアの科学

いつ、誰が、何を話した？全部で何人いた？

～何人の会話でも聞き分けられる深層学習モデル～

どんな研究

会話収録音から、「いつ、誰が、何を話したか」という情報を推定します。従来の類似技術は、収録状況に関して様々な条件（話者は移動不可、話者数は既知、等）を仮定し、その条件が満たされた時のみうまく動作するものでした。しかし、実データではこれらの条件が満たされないことも多々あります。

どこが凄い

提案法は、複数人の声が重なっていても、話者数を数え上げながら、「いつ、誰が話したか」という情報を、話者の声の特徴に基づき精度良く推定します。深層学習に基づく、任意の会話状況を表現できるモデルであり、適切な学習データがあれば、あらゆる実会話データに対応できることが期待されます。

めざす未来

人と人との会話から「いつ、誰が、何を話したか」という情報を自動獲得する技術は、会話を自動分析する技術の基盤となり、議事録自動作成や、私たちのコミュニケーションを助けるロボットの実現に寄与します。今後は、より実際的なデータを用い、提案原理の有効性を検証していきます。

ポスター

アイコンをクリックすると、展示ポスターのPDFが開きます。
PDFの表示にはAdobe Acrobat Reader等のPDF閲覧表示が必要です。

当日の様子

連絡先

木下　慶介(Keisuke Kinoshita) メディア情報研究部　信号処理研究グループ
Email:

講演：山田武士 (所長講演)| 為末大 × 柏野牧夫 (特別対談) | 柏野邦夫 | 丸谷和史 | 服部正嗣

研究展示：1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 |
前へ | 次へ

研究展示

メディアの科学

関連文献

ポスター

当日の様子

連絡先