騒がしい生活環境で、音声だけ高品質に取り出す｜研究展示｜NTTコミュニケーション科学基礎研究所オープンハウス2021

研究展示

メディアの科学

15	騒がしい生活環境で、音声だけ高品質に取り出す音源分離・雑音抑圧・残響抑圧の全体最適化

どんな研究	がやがやとした生活環境において、音声端末が人間の声を高精度に音声認識するには、マイクに混入する雑音や残響を取り除き (雑音抑圧・残響抑圧)、複数の人の声を聞き分ける必要があります (音源分離)。この展示ではこれら３つの問題を統合的に解決する新技術を紹介します。
どこが凄い	現在の最先端技術は、音源分離・雑音抑圧・残響抑圧の3技術を別々に最適化するため、雑音や残響が大きい環境において、音声を高品質に取り出すことができませんでした。これら3技術を統合し全体最適化することで、音声を高品質に取り出し、音声認識性能を大きく改善しました。
めざす未来	マイクで収録した音から各話者の音声を高品質に取り出す技術は、スマートスピーカや対話ロボットといった音声端末 (コンピュータ) の基盤をなす技術です。駅・街頭・ショッピングモールなどの生活環境において、人とコンピュータが円滑に対話できる世界の実現に寄与します。

関連文献

[1] T. Nakatani, C. Boddeker, K. Kinoshita, R. Ikeshita, M. Delcroix, R. Haeb-Umbach, “Jointly optimal denoising, dereverberation, and source separation,” in Proc. IEEE/ACM Trans. Audio, Speech, Language Process., vol. 28, pp. 2267-2282, 2020.
[2] R. Ikeshita, T. Nakatani, S. Araki, “Block coordinate descent algorithms for auxiliary-function-based independent vector extraction,” in Proc. IEEE Trans. Signal Process., 2021, to appear.
[3] R. Ikeshita, T. Nakatani, “Independent vector extraction for fast joint blind source separation and dereverberation,” in Proc. IEEE Signal Process. Lett., 2021, to appear.

展示説明ムービー

動画の公開は終了いたしました。ご了承くださいますようお願いいたします。

騒がしい生活環境で、音声だけ高品質に取り出す

音源分離・雑音抑圧・残響抑圧の全体最適化

アンケートへのご協力、誠にありがとうございました

お問い合わせ

資料ダウンロード