プログラム / 講演・テーマ展示一覧 /

テーマ展示

メディアとコミュニケーション B-3 音や映像から情報を引き出す ―最先端のメディア情報抽出技術を体験―

概要

膨大な音や映像のデータが身の回りにあふれています.これらのデータを自在に検索して活用するためには,付随するテキスト情報に頼るだけではなく,それぞれの音や映像の中身を表す情報を,音や映像自体から自動的に引き出す技術(メディア情報抽出技術)が必要不可欠です.私たちの研究チームではとっておきの新しいアイデアを元にこの難問に取り組んでいます.本展示では,その最先端の研究成果を体験して頂きます.
本テーマ展示では, という5項目について,ご紹介します.

展示紹介ムービー

音や映像から情報を引き出す
―最先端のメディア情報抽出技術を体験―
2分12秒
テーマ展示資料(PDF)
再生する

個別展示

音響信号から音の“設計図”をひもとく -複素NMFと複合自己回帰系による音響信号のスパース表現-

どんな研究?

音響信号がどのような音響的“パーツ”によってどのように構成されているか(“設計図”)を情報論的アプローチによって推定する計算理論を研究しています.今回はこれを実現する2つの手法(複素NMFと複合自己回帰系)を紹介します.

どこが凄い?

混合音の構成要素となっている音を推定・抽出する方法を考案しました.単純な周波数分析では様々な周波数成分が複雑に重畳するため個々の音の分離抽出は困難でしたが,提案法では繰り返し生起する音を重要な構成要素として学習するアイディアにより,これを可能にします.

もたらされる変革

将来,推定した“パーツ”を選択・置換したり“設計図”を書き換えて音を再構成することで,混合音から目的音を選択的に抽出したり,音の情報の一部,たとえばある音の音色だけを変えたりすることが可能になります.

関連文献

  • H. Kameoka, N. Ono, K. Kashino, S. Sagayama, "Complex NMF: A New Sparse Representation for Acoustic Signals," In Proc. 2009 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2009), Apr. 2009.
  • H. Kameoka, K. Kashino, "Composite Autoregressive System for Sparse Source-Filter Representation of Speech," In Proc. 2009 IEEE International Symposium on Circuits and Systems (ISCAS2009), May 2009.

個別展示紹介ムービー

音響信号から音の“設計図”をひもとく ―複素NMFと複合自己回帰系による音響信号のスパース表現―
音響信号から音の“設計図”をひもとく
- 複素NMFと複合自己回帰系による音響信号のスパース表現 -
5分15秒
個別展示資料(PDF)
再生する

この歌何点? -自己類似度特徴による音楽の類似度測定-

どんな研究?

CDの録音などの音響信号を用いて,音楽の類似度を測る方法の研究です.これは,音楽の検索には欠かせない技術です.従来技術では難しかった,調やテンポが異なる音楽についての的確な類似度測定が可能になりました.

どこが凄い?

音楽の特徴の表現において,ある音楽の異なる時点間での音響的類似性に着目して特徴をとらえるという新しいアイデアと,この特徴を時間方向の伸縮を考慮して効率的に計算する方法とを考案しました.

もたらされる変革

この研究をさらに進めると,楽器編成や編曲が異なる音楽に対しても,的確に音楽を検索でき,音楽検索や著作権管理などに革新をもたらすことが期待されます.

関連文献

  • T. Izumitani and K. Kashino, “A Robust Musical Audio Search Method Based on Diagonal Dynamic Programming Matching of Self-Similarity Matrices,” Ninth International Conference on Music Information Retrieval (ISMIR2008), pp. 609-613, Sep. 2008.

個別展示紹介ムービー

この歌何点? ―自己類似度特徴による音楽の類似度測定―
この歌何点?
―自己類似度特徴による音楽の類似度測定―
5分32秒
個別展示資料(PDF)
再生する

大事なものを見分け,学び,認識する - 視覚の特性を反映した未登録物体の自動検出と学習 -

どんな研究?

与えられた映像の中から,
1.重要と思われる「もの」を視覚の特性に基づく処理で自動的に抽出し,
2.その「もの」に関する情報を互いにやりとりしながら少しずつ成長する
映像認識探索システムを提案します.

どこが凄い?

1.「もの」とは何か? をあらかじめ知らなくても,「もの」と思われる映像中の領域を自動的に切り出します.
2.自ら集めた「もの」に関する知識を蓄積することで徐々に賢くなります.

もたらされる変革

1.人間の知覚との親和性が高い的確な映像探索の実現につながります.
2.注目すべき「もの」を自動抽出する機能は,ロボットの視覚機能の高度化につながります.

関連文献

  • Pang, Kimura, Takeuchi, Yamato, Kashino "A stochatic model model of selective visual attention with a dynamic Bayesian network," Proc. International Conference on Multimedia and Expo (ICME2008), pp. 1073-1076, June 2008.
  • Kimura, Pang, Takeuchi, Yamato, Kashino "Dynamic Markov Random fields for stochastic modelinf of visual attention," Proc. International Conference on Pattern Recognition (ICPR2008), MoBT8.35, Tampa, Florida, USA, December 2008.
  • 宮里、木村、高木、大和 ”MCMC-based particle filterを用いた人間の映像注視行動の実時間推定”、 電子情報通信学会技術報告(パターン認識・メディア理解)、 2009年5月
  • 福地、宮里、木村、高木、大和 ”グラフコストの逐次更新を用いた映像顕著領域の自動抽出”、 電子情報通信学会技術報告(パターン認識・メディア理解)、 2009年5月
  • Miyasato, Kimura, Takagi, Yamato "Real-time estimation of human visual attention with dynamic Bayesian network and MCMC-based particle filter," to appear, Proc. International Conference on Multimedia and Expo (ICME2009), New York, New York, USA, June-July 2009.
  • Fukuchi, Miyasato, Kimura, Takagi, Yamato "Saliency-based video segmentation with graph cuts and sequentially updated priors," to appear, Proc. International Conference on Multimedia and Expo (ICME2009), New York, New York, USA, June-July 2009.
  • 論文PDFのダウンロード先URL
    上記関連文献を含め、全ての掲載済論文及び発表資料は、以下のURLからダウンロード可能です。
    http://www.brl.ntt.co.jp/people/akisato/publications-j.html
    ただし、電子情報通信学会技術報告は、電子情報通信学会の著作権規定により掲載が認められておりませんので、ご了承下さい。

個別展示紹介ムービー

大事なものを見分け,学び,認識する ―視覚の特性を反映した未登録物体の自動検出と学習―
大事なものを見分け,学び,認識する
―視覚の特性を反映した未登録物体の自動検出と学習―
3分51秒
個別展示資料(PDF)
再生する

関連ウェブサイト

映像中の注目箇所の推定に関する技術は、以下のURLに解説及びデモ映像が記載されております。
http://www.brl.ntt.co.jp/people/akisato/saliency2-j.html
注目度に基づく重要領域抽出に関する技術は、同様に以下のURLに解説及びデモ映像が記載されております。
http://www.brl.ntt.co.jp/people/akisato/saliency3-j.html

たくさん利用されている人気動画をさがそう - 大規模メディアデータのリンク構造解析 -

どんな研究?

ネット上の動画ファイルや放送のストリームデータから収集した膨大なメディアデータの中から,利用頻度の高い人気のコンテンツを見つけるための検索技術です.音や映像の探索に基づいて,同一信号の利用頻度を計算します.

どこが凄い?

テキストによるメタデータを事前に用意する必要がないため,メディアデータの利用頻度をリアルタイムに計算することができます.また,利用頻度の高い人気のシーンを含むコンテンツをリストアップすることもできます.

もたらされる変革

利用頻度の高いコンテンツは,注目度が高く興味をひくものであると考えられます.これを提示したりナビゲーションに利用したりすることで,ネット上のメディアコンテンツの楽しみ方が進化すると考えられます.

研究の詳細

コンテンツの任意の時間区間の利用頻度を計算し,たくさんのコンテンツで利用されている人気のあるシーンを見つけだすことができます.コンテンツの利用頻度は,次の処理により計算することができます.

1. ネット上の動画ファイルや放送のストリームデータなどをシステムに入力します.
2. 入力動画に注目区間を設定し,既に入力された蓄積動画の中から同一内容の区間を探索し,検出されれば,注目区間と同一内容の区間の対をリンクとして保存します.
3. 検出したリンク数を投票しヒストグラムとして利用頻度分布を計算します.

得られたリンクは同一動画の検索に,利用頻度は人気動画の検索に利用することができます.
検索システム処理の流れ

関連文献

  • 黒住 隆行, 永野 秀尚, 柏野 邦夫, “実環境で収録された映像断片をキーとする一致映像探索”, 電子情報通信学会 論文誌 D-II, VOL.J90-D, No.8, pp.2223-2231, Aug. 2007. [ Webpage ]

個別展示紹介ムービー

たくさん利用されている人気動画をさがそう ―大規模メディアデータのリンク構造解析-
たくさん利用されている人気動画をさがそう
―大規模メディアデータのリンク構造解析―
3分21秒
個別展示資料(PDF)
再生する

実証実験結果報告 -インターネット上での音楽・映像コンテンツの使用を特定-

どんな研究?

別の音やテロップが重なっても元の音楽・映像を特定するロバストメディア探索技術を開発しました.この技術を用い,2008年4月から約半年間,動画投稿サイトなどのネット上のメディアファイルを対象に,元の音楽・映像を特定する実験を行いました.

どこが凄い?

実際に主要投稿サイトなどから全新規投稿に匹敵する量のメディアファイルを常時収集し(米国 BayTSP社と共同),登録した既知コンテンツの全数全区間との照合を行うことで,既知コンテンツの発見・特定を行いました.

もたらされる変革

メディア探索技術を用いたコンテンツ使用特定の有効性が確認されました.2008年12月から NTTデータがネット上コンテンツモニタリングの商用サービスを開始しました.ネット上でのメディアコンテンツ視聴の円滑化に寄与すると期待されます.

関連文献

  • 黒住 隆行,永野 秀尚,柏野 邦夫, “実環境で収録された映像断片をキーとする一致映像探索”, 電子情報通信学会 論文誌 D-II, VOL.J90-D, No.8, pp.2223--2231, Aug. 2007.
  • プレスリリース(サービスの提供を開始): http://www.nttdata.co.jp/release/2008/120100.html
  • プレスリリース(実証実験を開始): http://www.ntt.co.jp/news/news08/0804/080422a.html

個別展示紹介ムービー

実証実験結果報告 ―インターネット上での音楽・映像コンテンツの使用を特定―
実証実験結果報告
―インターネット上での音楽・映像コンテンツの使用を特定―
4分54秒
個別展示資料(PDF)
再生する

展示担当者