会話シーン分析の研究

Conversation Scene Analysis                            

Back to home page

To English page

私どもは現在,複数の人が会話している場面をカメラやマイク,センサなどで観測し,得られた情報から自動的に会話の状況を推定することができる技術の研究を進めています.現在まで,認識や推定の対象としているものは,
    
・誰が話をしているのか?
    
・誰が誰を見ているのか?
    
・誰が誰に向かって話し掛けているのか?誰が誰の話を聞いているのか?
    
・誰が誰に反応しているのか?
    
・誰が誰に強い影響を与えているのか? 誰が誰から強い影響を受けているのか?
などです.これらは人間にとっては,いとも簡単な事ですので,コンピュータにとっても簡単なタスクのように思えますが,実はそう簡単なものではありません.現在はこれら低次の情報の推定しかできませんが,将来的には,「誰が彼を怒らせたのか?」「何故,彼女は泣いているのか?」などより高次の人間のコミュニケーションが理解できるコンピュータの実現を目指しています.こうした技術は,会議の自動議事録の作成,遠隔地間の会議を効率的に進めるため自動映像編集などへの応用が考えられる他,人間社会に参画できるロボットの構築にも不可欠なものとなると期待されています.

当方で行っている会話シーン分析の紹介としては,現時点(200712月)の時点では,VNVの発表のページが一番,まとまっています.

なお,その他,文献については,文献リストのページもご参照頂けたらと思います.

**最新の情報までジャンプ**

2004年以前

会話シーンの映像編集を会話参加者の視線方向を使って行う方法について部下の方への指導を通して研究していました.

2005

4人会話を対象として,会話参加者の視線方向を手掛かりとして,会話の構造(「誰が誰に話しているか?」など)を推定する方法を提案しました.こちらは,京都大学の西田先生の会話情報学の国際ワークショップで最初に発表させていただいた後,ICMI2005や情報処理学会論文誌にて発表をしました.


A Probabilistic Inference of Multiparty-Conversation Structure Based on Markov-Switching Models of Gaze Patterns, Head Directions, and Utterances
ACM Int. Conf Multimodal Interfaces (ICMI)'05, October, 2005.
[Abstract][Paper][Presentation][Movies]

2006

昨年の方法は,頭の方向を計測するためにセンサーを装着していましたが,それを画像上での顔のトラッキングに置き換える方法を考え,ICME2006MIRU2006で発表しました.また,MITに見学に行った際,そちらのセミナーでもお話させていただきました.また,人工知能学会のSLUD研究会でも講演させて頂くことができました.

Conversation Scene Analysis with Dynamic Bayesian Network based on Visual Head Tracking
IEEE ICME'06, July, 2006
[Demo movies]

Modeling and Probabilistic Inference of Conversation Structures in Multiparty Face-to-Face Setting based on Visual Head Tracking
MIRU 2006, July 2006
Note: Japanese Domestic Conference. Content is the same as ICME'06
[Demo movies]

Communication Scene Analysis based on Probabilistic Modeling of Human Gaze Behavior

MIT CSAIL HCI Seminar Series Spring 2006
[Abstract][Presentation]

また,これまで提案した方法で推定された会話の構造と視線の方向を使って,何か会話に関する情報が得られないか考えたところ,会話の中で誰が誰に強い影響を与えているか計る尺度を考えて,CHIでポスターを発表しました.

Quantifying Interpersonal Influence in Face-to-face Conversations based on Visual Attention Patterns
ACM CHI (Work-In-Progress Session), April, 2006
[Abstract][Paper][Poster]

2007

昨年までの方法を拡張して,「誰が誰に対して反応をしているのか」という行動・反応の関係を推測する方法を考案し,ICMI2007にて発表しました.その結果,ありがたくも賞をいただくことができました.

Automatic Inference of Cross-modal Nonverbal Interactions in Multiparty Conversations
Proc. ACM ICMI2007, Nov. 2007.
[Abstract][Paper][Presentation][Movies]

電子情報通信学会の第3種研究会 ヴァーバル・ノンヴァーバル・コミュニケーション研究会の11月の研究会にて招待講演の機会を頂きました.

ノンバーバル行動に基づく会話構造の確率的推論 ―対面会話シーンの自動的な認識・理解に向けて―
ヴァーバル・ノンヴァーバル・コミュニケーション研究会,20071130日.東大本郷キャンパス
[Abstract][Presentation][Movies]

また,名古屋大学の間瀬先生が主催される非言語知識研究会において講演をさせて頂きました.

非言語行動の観測に基づく対面会話シーンの認識・理解
非言語知識研究会 第3回研究会 2007125日.
[Presentation PDF (360kB)]

その他,最近では実習生と一緒に,顔トラッキングの高速化・高精度化や,顔の表情を認識する方法の研究を進めています.顔のトラッキングに関しては今年のMIRUにてデモを行いました.

Simultaneous Real-time 3D Visual Tracking of Multiple Objects using a Stream Processor
画像の認識・理解シンポジウム(MIRU2007DS-01 (2007)
[Paper]

表情認識については,同じく今年のMIRUでポスター発表をした他,9月のCVIM研究会,11月のACCVにて発表を行いました.ありがたくもACCVでは論文が表彰されました.

Pose-Invariant Facial Expression Recognition Using Variable-Intensity Templates
Proc. Asian Conference on Computer Vision, 2007
[第一著者の熊野氏のホームページへ]

2008

人工知能学会SLUD研究会の3月の回にて口頭発表を行いました.内容は,昨年のICMI2007の日本語版です.

複数人会話における非言語インタラクション構造の推定 −誰が誰にどのように反応しているか?−

人工知能学会SLUD研究会(言語・音声理解と対話処理研究会)200837()

2008
4月に米国ラスベガスで開催されたICASSP2008にて論文発表を行いました.内容は,GPUを使った顔方向追跡についての提案です.
Simultaneous and Fast 3D Tracking of Multiple Faces in Video by GPU-based Stream Processing
ICASSP2008(IEEE The 33rd International Conference on Acoustics, Speech, and Signal Processing)
[関連情報]

また,顔方向追跡に関する論文がSpringerのサイトで公開されました(2008712)

Real-time visual tracker by Stream processing ---Simultaneous and fast 3D tracking of multiple faces in video sequences by using a particle filter ---
Journal of VLSI Signal Processing Systems
    (Freely downloadable from http://www.springerlink.com/content/pk22n1632859082k/ )
[追加情報]

この論文について幾つかのWebサイトにて取り上げていただきました.
NVIDIA CUDA ZONE
GPGPU Homepage
Geeks3D.com
Impress PC-watch, NVISION08レポー



2008
529日〜30
NTT CS
研オープンハウスx未来想論2008にて,実時間マルチモーダル会話シーン分析のデモシステムの展示を行いました.また,未来想論2008のパネルディスカッション「コミュニケーションを理解する−分析手法,技術,未来へのビジョン−」に,パネリストとして登壇いたしました.

   
・オープンハウスx未来想論2008に関する研究所の公式ホームページはこちらです.
   ビデオアーカイブ,資料なども公開されています.
   
・デモシステムの概要についてはこちら
   
・音声などの要素技術についてはこちらページで紹介しています.
   
・顔方向追跡についてはこちらのページで紹介しています.

2008
99日,オランダ,ユトレヒトにて開催されるMLMI2008にて,発表を行います.我々の顔方向追跡法を会話シーン分析に適用して,その有効性を確認したという内容です.

Fast and Robust Face Tracking for Analyzing Multiparty Face-to-Face Meetings
5th Joint Workshop on Machine Learning and Multimodal Interaction (MLMI2008)
[Paper][Presentation][Demo Movies]

2008
10月にギリシャ,クレタ島にて開催されるICMI2008にて論文発表を行います.内容は,今年5月のオープンハウスにて展示した実時間マルチモーダル会話シーン分析のデモシステムの技術に関するものです.

A Realtime Multimodal System for Analyzing Group Meetings by Combining Face Pose Tracking and Speaker Diarization

Proc. ACM 10th Int. Conf. Multimodal Interfaces (ICMI2008)
[Paper][Presentation][Demo Video]

200811月に大阪大学で開催される電子情報通信学会 MVE研究会にて研究発表を行いました.内容は,ICMI2008にて発表したデモシステムに関するものを日本語にしたものです.今回,始めてデモシステム(ノートPC版)を現地に持参し,発表中に簡単なデモをしました.こちらの発表に対して,後日,MVE賞の授与が決定されました.

多人数会話シーン分析に向けた実時間マルチモーダルシステムの構築 
〜 マルチモーダル全方位センサを用いた顔方向追跡と話者ダイアリゼーションの統合

マルチメディア・仮想環境基礎研究会 (MVE)

200812月,計測自動制御学会 システムインテグレーション部門講演会 人物画像処理セッションにおいて基調講演を行いました.

画像認識に基づくコミュニケーションシーンの分析・理解 

2009

200964日〜5
NTT CS
研オープンハウスx未来想論2009が行われました.今年は新型インフルエンザの影響で,当初予定されていた実地開催に代わり,オンライン開催となりました.各展示項目毎にムービーを公開いたしました.
http://www.kecl.ntt.co.jp/openhouse/2009/theme/b1/index.html
 会話の流れが一目瞭然

また,「人と人との会話を解き明かす 〜コミュニケーションを科学する映像音声技術」と題した研究講演を行いました.
http://www.kecl.ntt.co.jp/openhouse/2009/
  

 

2009622
米国マイアミビーチにおいて開催されたCVPR2009にて,新しいパーティクルフィルタに関する論文発表(口頭)を行いました.第一著者の三上君に代わって大塚が発表しました.

Dan Mikami, Kazuhiro Otsuka, and Junji Yamato, “Memory-based particle filter for face pose tracking robust under complex dynamics”, in Proc. IEEE Conference on Computer Vision and Pattern Recognition 2009 (CVPR2009)
論文はこちらから  http://www.brl.ntt.co.jp/people/dan/demo/cvpr09/CVPR2009paper.pdf,
デモムービーはこちらから http://www.brl.ntt.co.jp/people/dan/demo/cvpr09/
見ることができます.

2009720
島根県松江にて開催されたMIRU2009において,新しいパーティクルフィルタに関する論文発表を行いました.内容はCVPR09の日本語版です.こちら光栄にもMIRU優秀論文賞を頂きました.

三上 弾,大塚和弘,大和淳司,「頑健な顔姿勢追跡のための状態履歴の記憶に基づくパーティクルフィルタ, 画像の認識・理解シンポジウム2009

2009104
京都にて開催されたICCV2009併設の国際ワークショップ HCI2009 (IEEE International Workshop on Human-Computer Interaction)において,基調講演(招待講演)を行いました.
Kazuhiro Otsuka: “Understanding How People Communicate With Each Other: Multimodal Approach for Modeling and Recognizing Multiparty Face-to-Face Conversations

2009112日〜6
米国MITにて開催された ICMI-MLMI2009 (The Eleventh International Conference on Multimodal Interfaces and the Sixth Workshop on Machine Learning for Multimodal Interaction)において,論文発表,及び,デモ展示を行いました.今年は,始めて我々のプロジェクトから複数件の発表をすることができました.

K. Ishizuka, S. Araki, K. Otsuka, T. Nakatani, and M. Fujimoto: “A Speaker Diarization Method based on the Probabilistic Fusion of Audio-Visual Location Information” , Proc. ACM ICMI-MLMI2009
S. Kumano, K. Otsuka, D. Mikami, and amato, “Recognizing Communicative Facial Expressions for Discovering Interpersonal Emotions in Group Meetings”, Proc. ACM ICMI-MLMI2009

Demo Session:
K. Otsuka, S. Araki, D. Mikami, K. Ishizuka, M.ujimoto, and J. Yamato: “Realtime Meeting Analysis and 3D Meeting Viewer Based on Omnidirectional Multimodal Sensors”,  Proc. ACM ICMI-MLMI2009

2009123
パシフィコ横浜で開催されたViEW2009ビジョン技術の実利用ワークショップ)において,下記タイトルにて基調講演(招待講演)を行いました.
人と人とのコミュニケーションを理解する 〜マルチモーダル情報処理による会話シーン分析〜

Back to home

著作者の事前の許可なしに当ウェブサイトのコンテンツの改変,再配布,再利用を禁止いたします
Any reproduction, modification, distribution, or republication of materials contained on this Web site, without prior explicit permission of the copyright holder, is strictly prohibited.

All rights reserved, Copyright(C) 2005, 2006, 2007, 2008, 2009 NTT Communication Science Laboratories