研究展示

メディアの科学

15

この声、何歳?

話者クラスタリングを用いた深層話者属性推定

どんな研究

音声から発話者の年齢や性別といった話者に関する情報を推定する研究です。顔画像や動画といった視覚的な情報からこれら情報を高い精度で推定する手法は既にいくつか知られていますが、音声のみしか利用できない場合、最新の深層学習技術をもってしても未だ解決が困難な問題です。

どこが凄い

高精度な年齢推定を行うためには各年代の話者の膨大な学習データが必要です。しかし実際には年代毎にデータ量の違いがあり、特にデータが少ない年代の推定が困難でした。そこで、声が似た他の話者の推定結果を用いて補正することで、従来よりも高い精度で年齢推定できる技術を考案しました。

めざす未来

本技術は年齢のみならず感情など話者に関する様々な属性推定へ応用できます。今後は、各属性推定のための深層学習モデルと共に更なる性能改善を行い、話者属性を推定する汎用的な枠組を実現し、ユーザに特化した新たな音声インタフェース開発やマーケティングへの応用をめざします。

関連文献

  1. N. Tawara, H. Kamiyama, S. Kobashikawa, A. Ogawa, “Improving speaker-attribute estimation by voting based on speaker cluster information,” in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020 to appear.
  2. N. Tawara, H. Kamiyama, S. Kobashikawa, A. Ogawa, “話者クラスタリングに基づく話者年齢・性別推定精度改善法,”日本音響学会研究発表会講演論文集, pp. 815-816, 2019.

ポスター

展示説明ムービー

連絡先

俵 直弘 (Naohiro Tawara) メディア情報研究部 信号処理研究グループ
Email: