15 |
騒がしい生活環境で、音声だけ高品質に取り出す音源分離・雑音抑圧・残響抑圧の全体最適化 ![]() |
---|
どんな研究 |
がやがやとした生活環境において、音声端末が人間の声を高精度に音声認識するには、マイクに混入する雑音や残響を取り除き (雑音抑圧・残響抑圧)、複数の人の声を聞き分ける必要があります (音源分離)。この展示ではこれら3つの問題を統合的に解決する新技術を紹介します。 |
---|---|
どこが凄い |
現在の最先端技術は、音源分離・雑音抑圧・残響抑圧の3技術を別々に最適化するため、雑音や残響が大きい環境において、音声を高品質に取り出すことができませんでした。これら3技術を統合し全体最適化することで、音声を高品質に取り出し、音声認識性能を大きく改善しました。 |
めざす未来 |
マイクで収録した音から各話者の音声を高品質に取り出す技術は、スマートスピーカや対話ロボットといった音声端末 (コンピュータ) の基盤をなす技術です。駅・街頭・ショッピングモールなどの生活環境において、人とコンピュータが円滑に対話できる世界の実現に寄与します。 |

[1] T. Nakatani, C. Boddeker, K. Kinoshita, R. Ikeshita, M. Delcroix, R. Haeb-Umbach, “Jointly optimal denoising, dereverberation, and source separation,” in Proc. IEEE/ACM Trans. Audio, Speech, Language Process., vol. 28, pp. 2267-2282, 2020.
[2] R. Ikeshita, T. Nakatani, S. Araki, “Block coordinate descent algorithms for auxiliary-function-based independent vector extraction,” in Proc. IEEE Trans. Signal Process., 2021, to appear.
[3] R. Ikeshita, T. Nakatani, “Independent vector extraction for fast joint blind source separation and dereverberation,” in Proc. IEEE Signal Process. Lett., 2021, to appear.
池下 林太郎 (Rintaro Ikeshita) メディア情報研究部 信号処理研究グループ
Email: cs-openhouse-ml@hco.ntt.co.jp