雑音に頑健な音声信号区間検出法
◎ 目的音声信号の存在する区間を検出
 コミュニケーション科学基礎研究所では、日常経験する様々な雑音に対して頑健に動作する音声信号区間検出法MUSCLE-VAD (MUlti Stream Combination of Likelihood Evolution for Voice Activity Detection)を開発しました。

 音声信号区間検出技術(VAD)は観測信号から音声信号の存在区間を検出する技術で(図1)、音声認識・音声符号化などに適用可能な、音声情報処理の共通基盤技術です。従来のVADは空調音などの変化が少ない雑音には頑健でしたが、机を叩く音・靴音・列車や車の走行音・ドアの開閉音などの、変化の多い突発的な雑音がある場合には十分に動作しない問題点がありました。


図1:音声信号区間検出技術の概要
 MUSCLE-VADでは、突発的な雑音に強い音響特徴である観測信号の周期性成分と非周期性成分のパワー比(図2)と、雑音の時間的な変化を追跡することが可能な、確率モデルに基づく音声/非音声判定方法(図3)とを用いて、この問題点を解決しました。


図2:突発的な雑音に強い音響特徴


図3:確率モデルに基づく音声/非音声判定
◎ 利用環境を選ばず高い検出精度を達成
 MUSCLE-VADの性能を評価した結果を図4に示します。評価には、雑音下音声区間検出の標準的なベンチマークであるCENSREC-1-Cを用いました。突発的な雑音を含む地下鉄や交通量の多い高速道路近辺で,音声の開始から終了までを正確に検出できた割合(音声区間検出精度)を測定しました。信号対雑音比(SNR)は雑音の大きさを示し、数字が小さいほど雑音が大きく、0 dBは音声と雑音が同じ大きさであることを意味します。私達が日常経験する大きさの雑音に対して、MUSCLE-VADは、実用的な演算量で、従来法を大きく上回る検出精度を達成しました。この性能向上により、日常的な雑音のある環境でも、音声認識などの様々な音声情報処理技術が利用できるようになります。



図4:騒音下での発話区間検出精度の比較
<< 参考文献など >>

M. Fujimoto, K. Ishizuka, and T. Nakatani, "A Voice Activity Detection Based on the Adaptive Integration of Multiple Speech Features and a Signal Decision Scheme," ICASSP2008, pp. 4441--4444, 2008. [PDF]

藤本 雅清, 石塚健太郎, 加藤 比呂子, "音声と雑音両方の状態遷移過程を有する雑音下音声区間検出," 情報処理学会研究報告, SLP-64-03, pp. 13-18, 2006. [Link]

K. Ishizuka and T. Nakatani, "Study of noise robust voice activity detection based on periodic component to aperiodic component ratio," SAPA2006, pp.65--70, 2006. [PDF]

"雑音に頑健な音声信号区間検出法" NTT先端技術総合研究所, News Letter, No.239. 2007. [PDF]

Notice about IEEE-copyrighted materials

This material is presented to ensure timely dissemination of scholarly and technical work. Copyright and all rights therein are retained by authors or by other copyright holders. All persons copying this information are expected to adhere to the terms and constraints invoked by each author's copyright. In most cases, these works may not be reposted without the explicit permission of the copyright holder.

(c)20xx IEEE. Personal use of this material is permitted. However, permission to reprint/republish this material for advertising or promotional purposes or for creating new collective works for resale or redistribution to servers or lists, or to reuse any copyrighted component of this work in other works must be obtained from the IEEE.