雑音や残響により歪んだ音声信号を回復する音声強調技術
実世界のコミュニケーションシーンには、聞きたい音声だけでなく雑音や残響が生じています。こうした雑音や残響は、録音音声の品質や音声認識性能を著しく劣化させます。そこで、私たちは、録音音声から雑音や残響を取り除いてクリーンな音声信号を回復する音声強調技術について研究をすすめています。これまでに、音源分離、残響除去、及びこれらの統合処理や、無指向性雑音の抑圧と残響除去の統合処理について、多くの革新的な技術を提案してきました。オープンハウス×未来想論2008のテーマ展示「実世界コミュニケーションシーンを理解する音声映像技術」の1つとして、音源分離と残響除去の統合処理、及び無指向性雑音の抑圧と残響除去の統合処理のデモンストレーションをご覧いただきます。これらの技術は今後、他の音声処理システムに組み込まれていく予定です。
残響は、録音音声やテレビ会議音声の明瞭性を下げる要因になるとともに、コンピュータによる音声認識性能を大きく低下させます。しかし、ごく最近まで、残響に対する有効な対処法は確立しておらず、残響除去は極めて困難な課題とされてきました。これに対し、私たちは、音声と残響の本質的な違いに着目して多くの革新的な技術を研究しています。特に、残響から初期反射音を除いた後部残響(図上)が残響の主問題であると位置づけ、後部残響のみを効果的に取り除く マルチステップ線形予測に基づく残響除去法を構築しました。この方法では、各時刻の音声信号に、それより約30ミリ秒以前の音声信号が含まれる割合を後部残響のエネルギーとして推定し、音声信号から減算します。これにより、少ない計算コストで安定かつ精度よく残響除去が実現できることを確認しました。実験により、一つもしくは複数のマイクロホンを用いて、残響環境下での音声認識性能を大幅に改善できることを示しました(図下)。
<< 参考文献など >>

T. Yoshioka, T. Nakatani, T. Hikichi, and M. Miyoshi, "Maximum likelihood approach to speech enhancement for noisy reverberant signals," ICASSP 2008, pp. 4585-4588, 2008.
[PDF]

吉岡拓也, 中谷智広, 三好正人, "雑音と残響の同時抑圧による音声強調," 日本音響学会2008年春季研究発表会, pp. 731-732, 2008. [PDF]

木下慶介, 中谷智広, 澤田宏, 荒木章子, 三好正人, "複数音源が存在する残響環境でのマルチステップ線形予測の効果," 日本音響学会 2007年秋季研究発表会, pp. 731-732, 2007. [PDF]


Notice about IEEE-copyrighted materials

This material is presented to ensure timely dissemination of scholarly and technical work. Copyright and all rights therein are retained by authors or by other copyright holders. All persons copying this information are expected to adhere to the terms and constraints invoked by each author's copyright. In most cases, these works may not be reposted without the explicit permission of the copyright holder.

(c)20xx IEEE. Personal use of this material is permitted. However, permission to reprint/republish this material for advertising or promotional purposes or for creating new collective works for resale or redistribution to servers or lists, or to reuse any copyrighted component of this work in other works must be obtained from the IEEE.