Five papers presented at Interspeech 2025

Yasunori Ohishi

May 23, 2025 1 min read General audio representation, Audio captioning, Voice Conversion

We are pleased to announce that our group’s papers have been accepted to Interspeech 2025.

"Towards Pre-training an Effective Respiratory Audio Foundation Models" by Daisuke Niizumi, Daiki Takeuchi, Masahiro Yasuda, Binh Thien Nguyen, Yasunori Ohishi, and Noboru Harada
"CLAP-ART: Automated Audio Captioning with Semantic-rich Audio-Representation Tokenizer" by Daiki Takeuchi, Binh Thien Nguyen, Masahiro Yasuda, Yasunori Ohishi, Daisuke Niizumi, and Noboru Harada
"FasterVoiceGrad: Faster One-step Diffusion-based Voice Conversion with Adversarial Diffusion Conversion Distillation" by Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, and Yuto Kondo
"Vocoder-Projected Feature Discriminator" by Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, and Yuto Kondo
"JIS: A Speech Corpus of Japanese Idol Speakers with Various Speaking Styles" by Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, and Takuhiro Kaneko