現在地はこちら: Home > 研究テーマ > 映像顕著性に基づく映像注目領域の自動抽出 [ English ] [ Japanese ]

映像顕著性に基づく映像注目領域の自動抽出
  • 映像顕著性に基づいて、どこが注目度の高い領域であるかに関する 事前確率を決定することで、映像中から意味のある注目領域を自動 的に抽出できます。
  • 過去の分割結果を用いた上記事前確率の逐次的な推定により、領域 抽出の安定性を大幅に向上させました。
  • 事前確率及び特徴量尤度の算出を並列化することにより、GPU上に 実装可能となり、モバイルノートPCでリアルタイムに近い速度 (5-6fps) での動作を実現しました。
詳細説明

映像から,興味の対象である領域(物体領域) を,背景などそれ以外の 領域(背景領域) と区別して抽出する映像領域分割技術は,ビデオ 分類,物体の認識・検索を含む応用範囲の広い重要な映像処理技術の 一つである.映像からの領域分割は,重要な領域を”物体”,残りの 領域を”背景”とする2 値セグメンテーション問題として定式化 できる.正確な領域分割を実現する有望な方法の1 つとして,グラフ カットに基づく手法が広く知られている.この手法の基本的な アイディアは,マルコフ確率場(MRF)の最大事後確率(MAP)推定として 定式化された画像領域分割問題を,このMRFと等価なグラフの最小 カット問題に置き換えることに基づいている.Boykov (2006) は,この 考え方を多値セグメンテーションに拡張し,効率的な独自のグラフ カットの方法を示した.また,Kohli とTorr (2007) は,動的に変化 するMRFモデルのMAP 推定を行う効率的なアルゴリズムを提案し,映像 領域分割への適用可能性を示した.

これらのアプローチは有望ではあるが,手動かつ丁寧にセグメン テーションに関する事前情報を与えなければならないという大きな問題 点を抱えている.すなわち,画像中のいくつかの箇所において,"物体" であるか"背景"であるかをシステムに教示する必要がある.応用上の 観点から,完全に自動的なセグメンテーション方法の開発が強く期待 されている.事前情報なしに高精度な領域分割を行うことは困難である 一方,物体や背景に関する特徴を事前にもしくは自動的に獲得する ことはさらに困難である.

本研究では、視覚的注意のモデルに基づいて上記の問題を解決する、 高精度な映像分割手法を提案する.本手法の特長は,以下の2点である.

  1. グラフカットに基づいた画像分割手法に,顕著性に基づいて"物体" や"背景"に関する事前情報を自動的に生成して与える処理を導入 した.具体的には,独自に開発した, 映像顕著性に基づく視覚的注意の確率的計算モデルに基づき, 入力画像の各位置が”物体”である確率を表す事前確率を与える. この処理の導入により,グラフカットに基づく画像分割における懸案 であった手動ラベリングの問題を解消し,分割の自動化を実現 する.
    しかし,映像領域分割への適用を考慮すると,近接フレームで顕著 性の高い領域が異なる場合に分割結果が時系列として不安定になる ことが問題である.
  2. そこで,本報告では,事前確率を過去の分割結果に基づいて逐次的に 推測・更新する手法も新たに導入する.事前確率は、過去のフレーム の分割結果から形成された事前確率と,現在のフレームの顕著度から 形成された事前確率を,カルマンフィルターの考え方を利用し,組み 合わせることで更新する.以前の分割結果に基づいて事前情報を逐次 的に更新することで,顕著度の揺らぎに起因する分割結果の不安定 性を解消し,高精度な映像分割を実現する.

アルゴリズムの動作例

提案手法による映像重要領域抽出の結果

(左上)入力映像、(上右)顕著性に基づく注視位置推定結果
(左下)事前確率、(右下)領域抽出結果

Data

This dataset contains 10 videos as inputs, and segmented image sequences as ground-truth.

Required:
Any report or publication using this data should cite its use as all the publications listed in 主要文献 below.

Detailed description:
Videos : 10 uncompressed AVI clips of natural scenes with 12 fps, including at least one target objects or something others. Length varies 5-10 seconds.
Groung-truth: 10 sets of JPEG images, each corresponds to an input video. Segmented images are provided for almost all the frames exculding first 15 frames.

解説資料

大事なものを見分け、学び、認識する
〜 視覚の特性を反映した未登録物体の自動検出と学習 〜
>> 解説映像   解説資料その1   解説資料その2

主要文献

福地賢、宮里洸司、木村昭悟、 高木茂、大和淳司、柏野邦夫
"グラフコストの逐次更新を用いた映像顕著領域の自動抽出",
電子情報通信学会論文誌,
Vol.J93-D, No.8, pp.1523-1532, 2010年8月
[ 文献情報 ]

Kazuma Akamine, Ken Fukuchi, Akisato Kimura, Shigeru Takagi
"Fully automatic extraction of salient regions in near real-time,"
the Computer Journal, November 2010.
[ 文献情報 ]