プログラム / 講演・テーマ展示一覧 /
テーマ展示

概要
我々はコミュニケーションシーンを理解するための音声映像分析技術に取り組んでいます.これは,会議等のマルチメディア議事録の作成や高臨場感のTV会議システム等の工学的応用や,人のコミュニケーションを理解するための心理学・社会学分野への貢献が期待されます.また大量の会議収録データの検索性を高め,所望の収録データの視聴を容易にします.展示では,会議シーン分析の事例と,これを支える音声映像技術を紹介します.
本テーマ展示では, という5項目について,ご紹介します.
本テーマ展示では, という5項目について,ご紹介します.
関連ウェブサイト
- 全体のシステムの紹介サイト 「実時間マルチモーダル会話分析システム」
- 研究の経緯 「会話シーン分析の研究」
- 文献リストのページ
- システム全体および画像側技術の情報
- 音響側技術の情報
展示紹介ムービー
個別展示
実時間会議モニタリング -リアルタイム & マルチモーダル対話シーン分析-
どんな研究?
人間同士の自然なコミュニケーションを自動認識する研究です.会議において「いつ誰が誰に話しているか?」「誰が注目を集めているか?」などの場の状況を,画像と音声の情報から推定する技術を研究しています.
どこが凄い?
高速・高精度の発話区間検出と複数人顔追跡の技術で,世界唯一のリアルタイム会議分析システムを実現しました.また会議分析結果の3次元表示や,注目したい参加者の選択視聴機能により,没入感の高い会議視聴が可能です.
もたらされる変革
会議の雰囲気や具体的なやりとりまでが分かるマルチメディア議事録の作成や,臨場感の高いTV会議システムなどへの応用だけでなく,人と人とのコミュニケーションを分析する心理学・社会学などへの分野へも貢献します.
関連文献
- 大塚,荒木,石塚,藤本,大和:“多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築”, 信学技法MVE2008-68, pp. 55-62, 2008 [ Webpage ]
- K. Otsuka, et al., "A Realtime Multimodal System for Analyzing Group Meetings by Combining Face Pose Tracking and Speaker Diarization", Proc. ACM 10th Int. Conf. Multimodal Interfaces, pp. 257-264, 2008 [ Webpage ]
- 関連説明のページ
- 文献リストのページ
個別展示紹介ムービー
激しく動いても見失わない顔追跡 -複雑な動きに対して頑健な顔姿勢追跡-
どんな研究?
複数の人物がコミュニケーションするシーンで,画像処理技術を用いて,「人物の顔の位置と向き(顔姿勢)」を追跡します.これにより,誰が誰を見ているか?誰が注目を集めているか?という情報の推定に役立てます.
どこが凄い?
従来の追跡法では動きが複雑な場合,すぐに追跡が失敗してしまいその後の復帰は困難でした.本手法では,対象がありそうな場所を効率的に探すことで,頑健な追跡と失敗からの復帰を実現します.
もたらされる変革
会話中の自然な顔姿勢を,「高精度」かつ「人に負担をかけずに」計測できます.顔の位置と向きが分かるだけでなく,表情認識や視線推定のための基盤技術として,コミュニケーションシーンのより深い理解にも役立ちます.
関連文献
- D.Mikami, K.Otsuka, and J.Yamato, Memory-based Particle Filter for Face Pose Tracking Robust under Complex Dynamics, Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2009
個別展示紹介ムービー
会議も!談話も!実シーンの会話の文書化 - 会話音声認識・検索技術 -
どんな研究?
会議や打合せの内容を効率的に把握できるようにするための研究です.音声認識技術により会話を文書化し,検索技術により特定の話題についての発言や特定の話者の発言を取り出して読むまたは聞くことができます.
どこが凄い?
音声認識の誤りを最少にするモデルを獲得する識別的学習法や,重み付き有限トランスデューサに基づく高速探索法などを駆使し,従来認識が困難とされてきた実用的なシーンでの会話も高精度に文書化する世界最高水準の音声認識を実現しています.
もたらされる変革
この研究をさらに発展させることにより,言語の壁を越えて,ニュース・スポーツ中継・ドラマなど様々なメディアコンテンツにアクセスしたり,世界中の見たい・知りたいに応えることができます.
関連文献
- E. McDermott, A. Nakamura, “Flexible Discriminative Training Based On Equal Error Group Scores Obtained From An Error-Indexed Forward-Backward Algorithm,” Interspeech’08, pp. 2398-2401, 2008.
- 大庭, 堀, 中村, “識別的誤り訂正学習における対立単語列と素性の選定,” 電子情報通信学会技報報告, 2007-SLP-69, pp. 235-240, 2007. [ Webpage ]
- 堀 貴明,須藤 克仁,塚田 元,中村 篤,"世界メディアブラウザ",NTT技術ジャーナル 2009年5月号. [ PDF ]
- Atsushi Nakamura, Erik McDermott, Shinji Watanabe and Shigeru Katagiri, "A Unified View for Discriminative Objective Functions based on Negative Exponential of Difference Measure Between Strings," ICASSP'09, pp. 1633-1636, 2009.
- Masakiyo Fujimoto and Kentaro Ishizuka, "Noise Robust Voice Activity Detection Based on Switching Kalman Filter," IEICE Transactions on Information and Systems, Vol. E91-D, No. 3, pp. 467-477, March. 2008.
個別展示紹介ムービー
会話の中から各話者の声を明瞭に聞き分けます -残響に頑健な音声分離抽出技術 -
どんな研究?
複数人の声が混ざった音の中から,個々の人の声を分離抽出する技術です. 2種類の音声分離抽出方式をご紹介します.
・高速な方式 -> リアルタイム処理可能!
・部屋の残響も除去する方式(バッチ処理)-> 残響に頑健!
・高速な方式 -> リアルタイム処理可能!
・部屋の残響も除去する方式(バッチ処理)-> 残響に頑健!
どこが凄い?
音声分離・残響除去を統合し,特別に音響設計されていない普通の部屋でも,各話者の声を分離抽出・残響除去できるようになりました.また,高速・高精度な発話区間検出技術を用いた,リアルタイム処理方式も実現しました.
もたらされる変革
この研究をさらに発展させることで,どんな部屋でも,小型の収音装置で,目的の話者の声を高品質に収録できるようになります.例えば,コンピュータの音声インタフェースや,どこでも手軽に使える高音声品質の遠隔会議システムに応用できます.
関連文献
- T. Yoshioka, T. Nakatani, M. Miyoshi, “An integrated method for blind separation and dereverberation of convolutive audio mixtures,” in CD-ROM Proc. 16th Eur. Sig. Process. Conf. (EUSIPCO2008), 2008. [ PDF ]
- S. Araki, M. Fujimoto, K. Ishizuka, H. Sawada, S. Makino, “A DOA based speaker diarization system for real meetings,” in Proc. Hands-free Speech Com. Mic. Arrays (HSCMA2008), pp. 29-32, 2008. [ Webpage ]
- 小笠原, 石塚,荒木,藤本,中谷,大塚, “SN 比最大化ビームフォーマを用いたオンライン会議音声強調,” 日本音響学会, 平成21年度春季研究発表会, 2-9-17, pp. 695-698, March 2009.
- 関連文献リスト
個別展示紹介ムービー
響いた収録音声を,くっきりとした音声に!-映画/テレビ/CMの音声編集・調整用 残響除去ソフト-
どんな研究?
ロケ現場などで,話者から離れたマイクで音声を収録すると,しばしば収録音声には残響が含まれるため,音声の明瞭性が損なわれてしまいます.収録音声から残響を低減し,明瞭にする技術を紹介します.
どこが凄い?
NTTが提案した高性能な残響除去方法をもとに,世界で初めて商用残響除去ソフトを開発しました.プロ音響技師にも高く評価され,映画やCM制作現場でも使用されています.
もたらされる変革
映画やCMの音声制作の品質・効率の向上に加えて,将来,一般の人が日常生活の中で利用できる技術に発展させることで,高度な補聴システムや,人と機械の自然なコミュニケーションを支える技術を実現します.
関連文献
- K. Kinoshita, T. Nakatani, M. Miyoshi and T. Kubota, “A new audio post-production tool for speech dereverberation,” Audio Engineering Society (AES) 125th Convention, San Francisco, 2008 [ Webpage ]