プログラム

見どころ その1 「見る会話,聞く会話」

6月5日,NTT CS研オープンハウス×未来想論2009で「人と人との会話を解き明かす ~コミュニケーションを科学する映像音声技術~」の研究講演を行うNTT コミュニケーション科学基礎研究所の大塚和弘氏に,今回の講演の聞きどころと,研究のこれまでの経緯を聞いた.
見どころ1
「講演の見どころは,複数人の会話シーンを,体に機器を装着することなく,全方位カメラと複数マイクから得られる映像と音声だけでリアルタイムに分析する世界で初めてのシステムの紹介です.このシステムは,カメラの映像に「いつ誰が誰に向かって話しているか?」を可視化するための矢印や記号を加えたり,マウス操作で特定の人の声を消したりできます.」大塚氏はデモを交えながら語った.ちなみに全方位カメラという割にはレンズが2つしかなく,本当に360度撮れるのかと疑問に思い質問してみたところ,「180度撮れる魚眼レンズが2つある」とのこと.「やればできるものだ.」多くの若手研究者の力を結集し,システムが正常に動いたとき,大塚氏は率直に思ったという.

音声処理研究者と画像処理研究者の間の壁

「2005年に会話シーン分析の研究を立ち上げたときは「本当に出来るのか?」と正直不安でした」と大塚氏は当時を振り返る.会話シーンの分析には当然音声処理が重要な役割を果たすが,コンピュータビジョンや画像処理を専門としてきた大塚氏にとって,画像と音声という異なるメディアを扱う研究者間でのコラボレーションはかなりチャレンジングであると感じていたのだ.「しかし,思いこみでした.」大塚氏はこう続けた.画像処理研究者も音声処理研究者も実は信号処理という同じバックグラウンドを共有しており,双方が同じモチベーションをもっていることに気づいたからである.人間のコミュニケーション研究を成功に導く鍵は,異分野の研究者間でのコミュニケーションにあり,これまで歩んできた「コミュニケーションを科学する」道のりには,たくさんの人との出会いがあったようだ.

人間のコミュニケーションにも背後に何かがある

大塚氏は,大学でコンピュータビジョンに興味を持ち,NTTでは画像処理の研究に従事してきた.NTTでの最初の研究は,天気予報のための画像処理であった.このとき「画像上に写っている物事の表面のみを捉えるのでなく,物事の背後にある物理現象を考慮することが重要」ということに気づいたという.次に行った複数物体の相互オクルージョン(注1)解析の研究で,複数人のインタラクションに興味を持った.人間のコミュニケーションにも背後に何かがある―すなわち会話シーン分析において,発話者の意図や感情,会話の場を考慮することによって,コミュニケーションの本質に迫ることができるかもしれない,という大塚氏の着想の下地は,NTT入社以来,本人も気づかぬうちに形成されてきたのかもしれない.

「このシステムを発展させ,コミュニケーションを科学するためのツールとしても利用していきたい.」まだ大塚氏の語った夢への道のりは遠く,課題も多いそうだが,時間ではなく,たくさんの人との出会いがきっと解決してくれるに違いない.

(注1)オクルージョン:手前にある物体が背後にある物体を隠す状態

CS研オープンハウスの見どころ
CS研オープンハウスの歴史

What's New
  • RSS