テーマ展示

音や映像から「部品」を取り出す―メディアシーン学習が切り拓く次世代メディア解析―

概要

身の回りにあふれる大量の音や映像などのメディア情報から，必要な情報を高速かつ的確に提供するためには，メディアそのものを手がかりとするのみならず，「聞こえる音」や「映っているもの」など，メディアを構成する要素を取り出して活用することが重要となります．

本展示では，メディアデータに内在する性質を積極的に利用することで，特別な事前知識や参照情報を用いずとも，メディアを構成する要素を自動的に取り出し学習することを可能にする枠組である「メディアシーン学習 (MSL: Media Scene Learning)」を提案し，その具体的な実現形態として，以下の2つの技術についてご紹介致します．

音声の生成過程の統計モデルに基づく混合音声解析技術 CARS (Composite Auto-Regressive System)
初期視覚特性の統計モデルに基づく物体領域自動抽出技術 SBIL (Saliency-Based Image Learning)

展示資料

音や映像から「部品」を取り出す
―メディアシーン学習が切り拓く次世代メディア解析―(PDF)

展示担当者

木村昭悟
メディア情報研究部

亀岡弘和
メディア情報研究部

大石康智
メディア情報研究部

Jonathan Le Roux
メディア情報研究部

柏野邦夫
メディア情報研究部