Hirokazu Kameoka (NTT)

Ph.D. Thesis

Hirokazu Kameoka, "Statistical Approach to Multipitch Analysis," Ph.D. Thesis, The University of Tokyo, Mar. 2007. (PDF) Dean's award

Journals

Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, and Yuto Kondo, "LatentVoiceGrad: Nonparallel Voice Conversion with Latent Diffusion/Flow-Matching Models," IEEE Transactions on Audio, Speech, and Language Processing, vol. 33, pp. 4071-4084, 2025. (IEEE Xplore)
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, and Nobukatsu Hojo, and Shogo Seki, "VoiceGrad: Non-Parallel Any-to-Many Voice Conversion With Annealed Langevin Dynamics," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 2213-2226, 2024. (IEEE Xplore)
Hirokazu Kameoka, Wen-Chin Huang, Kou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo, and Tomoki Toda, "Many-to-Many Voice Transformer Network," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 656-670, 2021. (IEEE Xplore)
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, and Nobukatsu Hojo, "Nonparallel Voice Conversion With Augmented Classifier Star Generative Adversarial Networks," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 2982-2995, 2020 (IEEE Xplore)
Hirokazu Kameoka, Kou Tanaka, Damian Kwasny, Takuhiro Kaneko, and Nobukatsu Hojo, "ConvS2S-VC: Fully Convolutional Sequence-to-Sequence Voice Conversion," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 1849-1863, Jun. 2020. (IEEE Xplore)
Hirokazu Kameoka, Li Li, Shota Inoue, and Shoji Makino, "Supervised Determined Source Separation with Multichannel Variational Autoencoder," Neural Computation, vol. 31, no. 9, pp. 1891-1914, Sep. 2019. (PDF)
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, and Nobukatsu Hojo, "ACVAE-VC: Non-Parallel Voice Conversion With Auxiliary Classifier Variational Autoencoder," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 9, pp. 1432-1443, Sep. 2019. (IEEE Xplore)
Hirokazu Kameoka, Takuya Higuchi, Mikihiro Tanaka, and Li Li, "Nonnegative matrix factorization with basis clustering using cepstral distance regularization," IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 26, no. 6, pp. 1029-1040, Jun. 2018. (IEEE Xplore)
Hirokazu Kameoka, Kota Yoshizato, Tatsuma Ishihara, Kento Kadowaki, Yasunori Ohishi, and Kunio Kashino, "Generative modeling of voice fundamental frequency contours," IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 23, no. 6, pp. 1042-1053, Jun. 2015. (PDF)
Hirokazu Kameoka, "Non-negative matrix factorization and its variants with applications to audio signal processing," Journal of The Japan Statistical Society, vol. 44, no. 2, pp. 383-407, Mar. 2015 (in Japanese). (PDF)
Hirokazu Kameoka, Misa Sato, Takuma Ono, Nobutaka Ono, and Shigeki Sagayama, "Bayesian nonparametric approach to blind separation of infinitely many sparse sources," IEICE Transactions on Fundamentals of Electronics, Vol.E96-A, No.10, pp. 1928-1937, Oct. 2013. (PDF)
Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, "Speech spectrum modeling for joint estimation of spectral envelope and fundamental frequency," IEEE Transactions on Audio, Speech and Language Processing, Vol. 18, No. 6, pp. 1507-1516, Aug. 2010. (PDF)
Hirokazu Kameoka, Yutaka Kamamoto, Noboru Harada, and Takehiro Moriya, "A linear predictive coding algorithm minimizing the Golomb-Rice code length of the residual signal," IEICE Transactions on Fundamentals of Electronics, Vol. J91-A, No. 11, pp. 1017-1025, Nov. 2008 (in Japanese). (PDF)
Hirokazu Kameoka, Takuya Nishimoto, and Shigeki Sagayama, "A multipitch analyzer based on harmonic temporal structured clustering," IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, No. 3, pp. 982-994, Mar. 2007. (PDF) 〈Itakura Prize〉〈IEEE Signal Processing Society Japan Chapter Student Paper Award〉〈IEEE Signal Processing Society 2008 SPS Young Author Best Paper Award〉
Chihiro Watanabe and Hirokazu Kameoka, "X-DC: Explainable Deep Clustering based on Learnable Spectrogram Templates," Neural Computation, Accepted for publication, 2021.
Wen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, and Tomoki Toda, "Pretraining Techniques for Sequence-to-Sequence Voice Conversion," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 745-755, 2021. (IEEE Xplore)
Li Li, Hirokazu Kameoka, and Shoji Makino, "Majorization-Minimization Algorithm for Discriminative Nonnegative Matrix Factorization" IEEE Access, vol. 8, pp. 227399-227408, Dec. 2020. (IEEE Xplore)
Li Li, Hirokazu Kameoka, Shota Inoue, and Shoji Makino, "FastMVAE: A Fast Optimization Algorithm for the Multichannel Variational Autoencoder Method," IEEE Access, vol. 8, pp. 228740-228753, Dec. 2020. (IEEE Xplore)
Tomohiko Nakamura and Hirokazu Kameoka, "Harmonic-Temporal Factor Decomposition for Unsupervised Monaural Separation of Harmonic Sounds," IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 29, pp. 68-82, 2021. (IEEE Xplore)
Xin Wang, Junichi Yamagishi, Massimiliano Todisco, Hector Delgado, Andreas Nautsch, Nicholas Evans, Md Sahidullah, Ville Vestman, Tomi Kinnunen, Kong Aik Lee, Lauri Juvela, Paavo Alku, Yu-Huai Peng, Hsin-Te Hwang, Yu Tsao, Hsin-Min Wang, Sebastien Le Maguer, Markus Becker, Fergus Henderson, Rob Clark, Yu Zhang, Quan Wang, Ye Jia, Kai Onuma, Koji Mushika, Takashi Kaneda, Yuan Jiang, Li-Juan Liu, Yi-Chiao Wu, Wen-Chin Huang, Tomoki Toda, Kou Tanaka, Hirokazu Kameoka, Ingmar Steiner, Driss Matrouf, Jean-Francois Bonastre, Avashna Govender, Srikanth Ronanki, Jing-Xuan Zhang, and Zhen-Hua Ling, "ASVspoof 2019: A large-scale public database of synthesized, converted and replayed speech," Computer Speech & Language, Vol. 64, pp. 101114, 2020. (PDF)
Shogo Seki, Hirokazu Kameoka, Li Li, Tomoki Toda, and Kazuya Takeda, "Underdetermined Source Separation Based on Generalized Multichannel Variational Autoencoder," IEEE Access, vol. 7, pp. 168104-168115, Nov. 2019. (IEEE Xplore)
Ryosuke Sugiura, Yutaka Kamamoto, Noboru Harada, Hirokazu Kameoka, and Takehiro Moriya, "Optimal coding of generalized-Gaussian-distributed frequency spectra for low-delay audio coder with powered all-pole spectrum estimation," IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 23, no. 8, pp. 1309-1321, Aug. 2015.
Daichi Kitamura, Hiroshi Saruwatari, Hirokazu Kameoka, Yu Takahashi, Kazunobu Kondo, and Satoshi Nakamura, "Multichannel signal separation combining directional clustering and nonnegative matrix factorization with spectrogram restoration," IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 23, no. 4, pp. 654-669, Apr. 2015.
Ryosuke Sugiura, Yutaka Kamamoto, Noboru Harada, Hirokazu Kameoka, and Takehiro Moriya, "Resolution warped spectral representation for low-delay and low-bit-rate audio coder," IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 23, no. 2, pp. 288-299, Feb. 2015.
Hideyuki Tachibana, Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, "Harmonic/Percussive sound separation based on anisotropic smoothness of spectrograms," IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 22, no. 12, pp. 2059-2073, 2015.
Hiroshi Sawada, Hirokazu Kameoka, Shoko Araki, and Naonori Ueda, "Multichannel extensions of non-negative matrix factorization with complex-valued data," IEEE Transactions on Audio, Speech and Language Processing, Vol. 21, No. 5, pp. 971-982, May 2013. (PDF)
Gen Hori, Hirokazu Kameoka, and Shigeki Sagayama, "Input-Output HMM applied to automatic arrangement for guitars,'' Journal of Information Processing, Vol. 21, No. 2, pp. 264-271, 2013.
Akisato Kimura, Masashi Sugiyama, Hitoshi Sakano, and Hirokazu Kameoka, "Designing various component analysis at will via generalized pairwise expression," IPSJ Transactions on Mathematical Modeling and its Applications (TOM), Vol. 6, No. 1, pp. 136-145, Mar. 2013.
Akisato Kimura, Masashi Sugiyama, Takuho Nakano, Hirokazu Kameoka, Hitoshi Sakano, Eisaku Maeda, and Katsuhiko Ishiguro, "SemiCCA: Efficient semi-supervised learning of canonical correlations," IPSJ Transactions on Mathematical Modeling and its Applications (TOM), Vol. 6. No. 1, pp. 128-135, Mar. 2013.
Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Alain de Cheveigné, and Shigeki Sagayama, "Computational Auditory Induction as a Missing-Data Model-Fitting Problem with Bregman Divergence," Speech Communication (Special issue on Perceptual and Statistical Audition), Vol. 53, No. 5, pp. 658-676, Jun. 2011. (PDF)
Shoichiro Saito, Hirokazu Kameoka, Keigo Takahashi, Takuya Nishimoto, and Shigeki Sagayama, "Specmurt analysis of polyphonic music signals," IEEE Transactions on Audio, Speech and Language Processing, Vol. 16, No. 3, pp. 639-650, 2008. (PDF)
Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Alain de Cheveigné, and Shigeki Sagayama, "Single and multiple pitch contour estimation through parametric spectrogram modeling of speech in noisy environments," IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, No. 4, pp. 1135-1145, May 2007. (PDF)

Preprints

Hirokazu Kameoka, Kou Tanaka, and Takuhiro Kaneko, "FastS2S-VC: Streaming Non-Autoregressive Sequence-to-Sequence Voice Conversion," arXiv:2104.06900 [cs.SD], 2021. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, and Nobukatsu Hojo, "MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in Frames, arXiv:2102.12841 [cs.SD], Feb. 2021.
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, and Nobukatsu Hojo, "CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram Conversion," arXiv:2010.11672 [cs.SD], Oct. 2020. (PDF)
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo, Shogo Seki, "VoiceGrad: Non-Parallel Any-to-Many Voice Conversion with Annealed Langevin Dynamics," arXiv:2010.02977 [cs.SD], Oct. 2020. (PDF)
Chihiro Watanabe, Hirokazu Kameoka, "X-DC: Explainable Deep Clustering based on Learnable Spectrogram Templates," arXiv:2009.08661 [eess.AS], Sep. 2020. (PDF)
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo, "Non-Parallel Voice Conversion with Augmented Classifier Star Generative Adversarial Networks," arXiv:2008.12604 [eess.AS], Aug. 2020. (PDF)
Wen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, Tomoki Toda, "Pretraining Techniques for Sequence-to-Sequence Voice Conversion," arXiv:2008.03088 [eess.AS], Aug. 2020. (PDF)
Hirokazu Kameoka, Wen-Chin Huang, Kou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo, Tomoki Toda, "Many-to-Many Voice Transformer Network," arXiv:2005.08445 [eess.AS], May 2020. (PDF)
Wen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, Tomoki Toda, "Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining," arXiv:1912.06813 [eess.AS], Dec. 2019. (PDF)
Xin Wang, Junichi Yamagishi, Massimiliano Todisco, Hector Delgado, Andreas Nautsch, Nicholas Evans, Md Sahidullah, Ville Vestman, Tomi Kinnunen, Kong Aik Lee, Lauri Juvela, Paavo Alku, Yu-Huai Peng, Hsin-Te Hwang, Yu Tsao, Hsin-Min Wang, Sebastien Le Maguer, Markus Becker, Fergus Henderson, Rob Clark, Yu Zhang, Quan Wang, Ye Jia, Kai Onuma, Koji Mushika, Takashi Kaneda, Yuan Jiang, Li-Juan Liu, Yi-Chiao Wu, Wen-Chin Huang, Tomoki Toda, Kou Tanaka, Hirokazu Kameoka, Ingmar Steiner, Driss Matrouf, Jean-Francois Bonastre, Avashna Govender, Srikanth Ronanki, Jing-Xuan Zhang, Zhen-Hua Ling, "The ASVspoof 2019 database," arXiv:1911.01601 [eess.AS], Nov. 2019. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo, "StarGAN-VC2: Rethinking conditional methods for StarGAN-based voice conversion," arXiv:1907.12279 [cs.SD], Jul. 2019. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo, "CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion," arXiv:1904.04631 [cs.SD], Apr. 2019. (PDF)
Hirokazu Kameoka, Kou Tanaka, Aaron Valero Puche, Yasunori Ohishi, Takuhiro Kaneko, "Crossmodal Voice Conversion," arXiv:1904.04540 [cs.SD], Apr. 2019. (PDF)
Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko, Nobukatsu Hojo, "WaveCycleGAN2: Time-domain Neural Post-filter for Speech Waveform Generation," arXiv:1904.02892 [cs.SD], Apr. 2019. (PDF)
Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi, "Training a Neural Speech Waveform Model using Spectral Losses of Short-Time Fourier Transform and Continuous Wavelet Transform," arXiv:1903.12392 [eess.AS], Mar. 2019. (PDF)
Li Li, Hirokazu Kameoka, Shoji Makino, "Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational autoencoder with auxiliary classifier," i>arXiv:1812.06391 [cs.LG], Dec. 2018. (PDF)
Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko, Nobukatsu Hojo, "AttS2S-VC: Sequence-to-sequence voice conversion with attention and context preservation mechanisms," arXiv:1811.04076 [eess.AS], Nov. 2018. (PDF)
Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo, "ConvS2S-VC: Fully convolutional sequence-to-sequence voice conversion," arXiv:1811.01609 [cs.SD], Nov. 2018. (PDF)
Shogo Seki, Hirokazu Kameoka, Li Li, Tomoki Toda, Kazuya Takeda, "Generalized multichannel variational autoencoder for underdetermined source separation," arXiv:1810.00223 [stat.ML], Sep. 2018. (PDF)
Kou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo, Hirokazu Kameoka, "WaveCycleGAN: Synthetic-to-natural speech waveform conversion using cycle-consistent adversarial networks," arXiv:1809.10288 [eess.AS], Sep. 2018. (PDF) (Demo)
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo, "ACVAE-VC: Non-parallel many-to-many voice conversion with auxiliary classifier variational autoencoder," arXiv:1808.05092 [stat.ML], Aug. 2018. (PDF) (Demo)
Hirokazu Kameoka, Li Li, Shota Inoue, Shoji Makino, "Semi-blind source separation with multichannel variational autoencoder," arXiv:1808.00892 [stat.ML], Aug. 2018. (PDF) (Demo)
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo, "StarGAN-VC: Non-parallel many-to-many voice conversion with star generative adversarial networks," arXiv:1806.02169 [cs.SD], Jun. 2018. (PDF) (Demo)
Keisuke Oyamada, Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo, Hiroyasu Ando, "Generative adversarial network-based approach to signal reconstruction from magnitude spectrograms," arXiv:1804.02181 [eess.SP], Apr. 2018. (PDF)
Lauri Juvela, Bajibabu Bollepalli, Xin Wang, Hirokazu Kameoka, Manu Airaksinen, Junichi Yamagishi, Paavo Alku, "Speech waveform synthesis from MFCC sequences with generative adversarial networks," arXiv:1804.00920 [eess.AS], Apr. 2018. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, "Parallel-data-free voice conversion using cycle-consistent adversarial networks," arXiv:1711.11293 [stat.ML], Nov. 2017. (PDF) (Demo)
Akisato Kimura, Masashi Sugiyama, Sakano Hitoshi, Hirokazu Kameoka, "Designing various component analysis at will," arXiv:1207.3554 [cs.CV], Jul. 2012. (PDF)

Conference Papers

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo, "FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation," in Proc. The 26th Annual Conference of the International Speech Communication Association (Interspeech 2025), pp. 4598-4602, Aug. 2025.
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo, "Vocoder-Projected Feature Discriminator," in Proc. The 26th Annual Conference of the International Speech Communication Association (Interspeech 2025), pp. 4898-4902, Aug. 2025.
Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko, "JIS: A Speech Corpus of Japanese Idol Speakers with Various Speaking Styles," in Proc. The 26th Annual Conference of the International Speech Communication Association (Interspeech 2025), pp. 4783-4787, Aug. 2025.
Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko, "Rethinking Mean Opinion Scores in Speech Quality Assessment: Score Aggregation through Quantized Distribution Fitting," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1-5, Apr. 2025.
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo, "FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation," in Proc. The 25th Annual Conference of the International Speech Communication Association (Interspeech 2024), pp. 192-196, Sep. 2024.
Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko, Yuto Kondo, "PRVAE-VC2: Non-Parallel Voice Conversion by Distillation of Speech Representations," in Proc. The 25th Annual Conference of the International Speech Communication Association (Interspeech 2024), pp. 4363-4367, Sep. 2024.
Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko, Noboru Harada, "Learning to Assess Subjective Impressions from Speech," in proc. European Signal Processing Conference (EUSIPCO), pp. 381-385, Aug. 2024.
Yuto Kondo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko, "Selecting N-Lowest Scores for Training MOS Prediction Models," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1451-1455, Apr. 2024. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, "Training Generative Adversarial Network-Based Vocoder with Limited Data Using Augmentation-Conditional Discriminator," in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 12561-12565, Apr. 2024. (PDF)
Chihiro Watanabe, Hirokazu Kameoka, "DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion," in Proc. 2023 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2023), Oct. 2023. (PDF)
Keisuke Takazawa, Hirokazu Kameoka, Masahiro Yukawa, "Multiple Sound Source Tracking Based on Generative Modeling and Recursive Bayesian Filtering of Spatial Gradient Spectra," in Proc. 2023 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2023), Oct. 2023. (PDF)
Shogo Seki, Kanami Imamura, Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Noboru Harada, "W2N-AVSC: Audiovisual Extension for Whisper-to-Normal Speech Conversion," in proc. European Signal Processing Conference (EUSIPCO), pp. 296-300, Sep. 2023. (PDF)
Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko, "PRVAE-VC: Non-Parallel Many-to-Many Voice Conversion with Perturbation-Resistant Variational Autoencoder," in Proc. 12th Speech Synthesis Workshop (SSW) 2023, pp. 88-93, Aug. 2023. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki, "iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN," in Proc. The 24th Annual Conference of the International Speech Communication Association (Interspeech 2023), pp. 4369-4373, Aug. 2023. (PDF)
Kou Tanaka, Takuhiro Kaneko, Hirokazu Kameoka, Shogo Seki, "CFVC: Conditional Filtering for Controllable Voice Conversion," in Proc. The 24th Annual Conference of the International Speech Communication Association (Interspeech 2023), pp. 2058-2062, Aug. 2023. (PDF)
Shogo Seki, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko, "JSV-VC: Jointly Trained Speaker Verification and Voice Conversion Models," in Proc. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2023), pp. 1-5, Jun. 2023. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki, "Wave-U-Net Discriminator: Fast and Lightweight Discriminator for Generative Adversarial Network-Based Speech Synthesis," in Proc. 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2023), pp. 1-5, Jun. 2023. (PDF)
Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko, Shogo Seki, "Distilling Sequence-to-Sequence Voice Conversion Models for Streaming Conversion Applications," in Proc. 2022 IEEE Spoken Language Technology Workshop (SLT), pp. 1022-1028, Jan. 2023. (PDF)
Shuhei Yamaji, Taishi Nakashima, Nobutaka Ono, Li Li, Hirokazu Kameoka, "Encoder re-training with mixture signals on FastMVAE method," in Proc. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2022), pp. 705-709, Nov. 2022. (PDF)
Kohei Suzuki, Shoki Sakamoto, Tadahiro Taniguchi, Hirokazu Kameoka, "Speak like a dog: human to non-human creature voice conversion," in Proc. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2022), pp. 1385-1390, Nov. 2022. (PDF)
Hirokazu Kameoka, Takuhiro Kaneko, Shogo Seki, Kou Tanaka, "CAUSE: Crossmodal action unit sequence estimation from speech with application to facial animation synthesis," in Proc. The 23rd Annual Conference of the International Speech Communication Association (Interspeech 2022), pp. 506-510, Sep. 2022. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki, "MISRNet: Lightweight neural vocoder using multi-input single shared residual blocks," in Proc. The 23rd Annual Conference of the International Speech Communication Association (Interspeech 2022), pp. 1631-1635, Sep. 2022. (PDF)
Natsuki Ueno, Hirokazu Kameoka, "Multiple sound source localization based on stochastic modeling of spatial gradient spectra," in Proc. The 2022 30th European Signal Processing Conference (EUSIPCO 2022), pp. 31-35, Aug. 2022. (PDF)
Shogo Seki, Hirokazu Kameoka, Li Li, "Investigation and comparison of optimization methods for variational autoencoder-based underdetermined multichannel source separation," in Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022), pp. 511-515, May 2022. (PDF)
Li Li, Hirokazu Kameoka, Shogo Seki, "HBP: An efficient block permutation solver using Hungarian algorithm and spectrogram inpainting for multichannel audio source separation," in Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022), pp. 516-520, May 2022. (PDF)
Hirokazu Kameoka, Shogo Seki, Li Li, Chihiro Watanabe, "AttentionPIT: Soft permutation invariant training for audio source separation with attention mechanism," in Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022), pp. 706-710, May 2022. (PDF)
Takuhiro Kaneko, Kou Tanaka, Hirokazu Kameoka, Shogo Seki, "iSTFTNet: Fast and lightweight mel-spectrogram vocoder incorporating inverse short-time Fourier transform," in Proc. 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2022), pp. 6207-6211, May 2022. (PDF)
Asuka Moritani, Ryo Ozaki, Shoki Sakamoto, Hirokazu Kameoka, Tadahiro Taniguchi, "StarGAN-based Emotional Voice Conversion for Japanese Phrases," in Proc. 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2021), pp. 836-840, Dec. 2021. (PDF)
Shoki Sakamoto, Akira Taniguchi, Tadahiro Taniguchi, Hirokazu Kameoka, "StarGAN-VC+ASR: StarGAN-based non-parallel voice conversion regularized by automatic speech recognition," in Proc. The 22nd Annual Conference of the International Speech Communication Association (Interspeech 2021), pp. 1359-1363, Aug. 2021. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, and Nobukatsu Hojo, "MaskCycleGAN-VC: Learning Non-parallel Voice Conversion with Filling in Frames, in Proc. 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2021), Jun. 2021.
Shota Inoue, Hirokazu Kameoka, Li Li, and Shoji Makino, "SepNet: A deep separation matrix prediction network for multichannel audio source separation," in Proc. 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2021), Jun. 2021.
Naoya Murashima, Hirokazu Kameoka, Li Li, Shogo Seki, and Shoji Makino, "Single-Channel Muti-speaker Separation via Discriminative Training of Variational Autoencoder Spectrogram Model," in Proc. RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing 2021 (NCSP'21), pp. 149-152, Mar. 2021.
Mohammad Eshghi, Kazuhiro Kobayashi, Kou Tanaka, Hirokazu Kameoka, Tomoki Toda, "Phoneme Embeddings on Predicting Fundamental Frequency Pattern for Electrolaryngeal Speech," in Proc. 2020 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2020), pp. 572-577, Dec. 2020.
Wen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, Tomoki Toda, "Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining," in Proc. The 21st Annual Conference of the International Speech Communication Association (Interspeech 2020), Sep. 2020.
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo, "CycleGAN-VC3: Examining and Improving CycleGAN-VCs for Mel-spectrogram Conversion," in Proc. The 21st Annual Conference of the International Speech Communication Association (Interspeech 2020), Sep. 2020.
Li Li, Hirokazu Kameoka, Shoji Makino, "Determined Audio Source Separation with Multichannel Star Generative Adversarial Network," in Proc. The 30th IEEE International Workshop on Machine Learning for Signal Processing (MLSP2020), Sep. 2020.
Mohammad Eshghi, Kou Tanaka, Kazuhiro Kobayashi, Hirokazu Kameoka, Tomoki Toda, "An Investigation of Features for Fundamental Frequency Pattern Prediction in Electrolaryngeal Speech Enhancement," in Proc. 10th ISCA Speech Synthesis Workshop (SSW2019), pp. 251-256, Sep. 2019. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo, "StarGAN-VC2: Rethinking conditional methods for StarGAN-based voice conversion," in Proc. The 20th Annual Conference of the International Speech Communication Association (Interspeech 2019), pp. 679-683, Sep. 2019. (PDF)
Dongxiao Wang, Hirokazu Kameoka, Koichi Shinoda, "A modified algorithm for multiple input spectrogram inversion," in Proc. The 20th Annual Conference of the International Speech Communication Association (Interspeech 2019), pp. 4569-4573, Sep. 2019. (PDF)
Shota Inoue, Hirokazu Kameoka, Li Li, Shogo Seki, Shoji Makino, "Joint separation, dereverberation and classification of multiple sources using multichannel variational autoencoder with auxiliary classifier," in Proc. 23rd International Congress on Acoustics (ICA2019), pp. 6988-6995, Sep. 2019. (PDF)
Shogo Seki, Hirokazu Kameoka, Li Li, Tomoki Toda, Kazuya Takeda, "Generalized multichannel variational autoencoder for underdetermined source separation," in Proc. The 2019 27th European Signal Processing Conference (EUSIPCO 2019), pp. 1-5, Sep. 2019. (PDF)
Shota Inoue, Hirokazu Kameoka, Li Li, Shogo Seki, Shoji Makino, "Joint separation and dereverberation of reverberant mixtures with multichannel variational autoencoder," in Proc. 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 96-100,May 2019. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Nobukatsu Hojo, "CycleGAN-VC2: Improved CycleGAN-based non-parallel voice conversion," in Proc. 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 6820-6824, May 2019. (PDF)
Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko, Nobukatsu Hojo, "AttS2S-VC: Sequence-to-sequence voice conversion with attention and context preservation mechanisms," in Proc. 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 6805-6809, May 2019. (PDF)
Li Li, Hirokazu Kameoka, Shoji Makino, "Fast MVAE: Joint separation and classification of mixed sources based on multichannel variational autoencoder with auxiliary classifier," in Proc. 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 546-550, May 2019. (PDF)
Go Irie, Mirela Ostrek, Haochen Wang, Hirokazu Kameoka,, Akisato Kimura, Takahito Kawanishi, Kunio Kashino, "Seeing through sounds: Predicting visual semantic segmentation results from multichannel audio signals," in Proc. 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2019), pp. 3961-3965, May 2019. (PDF)
Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo, "StarGAN-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks," in Proc. 2018 IEEE Workshop on Spoken Language Technology (SLT 2018), pp. 266-273, Dec. 2018. (PDF)
Kou Tanaka, Takuhiro Kaneko, Nobukatsu Hojo, Hirokazu Kameoka, "Synthetic-to-natural speech waveform conversion using cycle-consistent adversarial networks," in Proc. 2018 IEEE Workshop on Spoken Language Technology (SLT 2018), pp. 632-639, Dec. 2018. (PDF)
Keisuke Oyamada, Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo, Hiroyasu Ando, "Generative adversarial network-based approach to signal reconstruction from magnitude spectrogram," in Proc. The 2018 European Signal Processing Conference (EUSIPCO 2018), pp. 2528-2532, Aug. 2018. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, "Non-parallel voice conversion using cycle-consistent adversarial networks," in Proc. The 2018 European Signal Processing Conference (EUSIPCO 2018), pp. 2114-2118, Aug. 2018. (PDF)
Nobukatsu Hojo, Hirokazu Kameoka, Kou Tanaka, Takuhiro Kaneko, "Automatic speech pronunciation correction with dynamic frequency warping-based spectral conversion," in Proc. The 2018 European Signal Processing Conference (EUSIPCO 2018), pp. 2324-2328, Aug. 2018. (PDF)
Hideaki Kagami, Hirokazu Kameoka, Masahiro Yukawa, "Joint separation and dereverberation of reverberant mixtures with determined multichannel non-negative matrix factorization," in Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018), pp. 31-35, Apr. 2018. (PDF)
Lauri Juvela, Bajibabu Bollepalli, Xin Wang, Hirokazu Kameoka, Manu Airaksinen, Junichi Yamagishi, Paavo Alku, "Speech waveform synthesis from MFCC sequences with generative adversarial networks," in Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018), pp. 5679-5683, Apr. 2018. (PDF)
Li Li, Hirokazu Kameoka, "Deep clustering with gated convolutional networks," in Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018), pp. 16-20, Apr. 2018. (PDF)
Kou Tanaka, Hirokazu Kameoka, Kazuho Morikawa, "VAE-SPACE: Deep generative model of voice fundamental frequency contours," in Proc. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018), pp. 5779-5783, Apr. 2018. (PDF)
Keisuke Oyamada, Hirokazu Kameoka, Takuhiro Kaneko, Hiroyasu Ando, Kaoru Hiramatsu, Kunio Kashino, "Non-native speech conversion with consistency-aware recursive network and generative adversarial network," in Proc. Asia Pacific Signal and Information Processing Association Annual Summit and Conference 2017 (APSIPA ASC 2017), Dec. 2017. (PDF)
Patrick Lumban Tobing, Hirokazu Kameoka Tomoki Toda, "Deep acoustic-to-articulatory inversion mapping with latent trajectory modeling," in Proc. Asia Pacific Signal and Information Processing Association Annual Summit and Conference 2017 (APSIPA ASC 2017), Dec. 2017. (PDF)
Shogo Seki, Hirokazu Kameoka, Tomoki Toda, Kazuya Takeda, "Missing component restoration for masked speech signals based on time-domain spectrogram factorization," in Proc. The 27th IEEE International Workshop on Machine Learning for Signal Processing (MLSP2017), Sep. 2017. (PDF) 〈Nominated for the Best Student Paper Award〉
Li Li, Hirokazu Kameoka, Shoji Makino, "Mel-generalized cepstral regularization for discriminative non-negative matrix factorization," in Proc. The 27th IEEE International Workshop on Machine Learning for Signal Processing (MLSP2017), Sep. 2017. (PDF)
Kou Tanaka, Hirokazu Kameoka, Tomoki Toda, Satoshi Nakamura, "Physically constrained statistical F0 prediction for electrolaryngeal speech enhancement," in Proc. The 18th Annual Conference of the International Speech Communication Association (Interspeech 2017), pp. 1069-1073, Aug. 2017. (PDF)
Nobukatsu Hojo, Yasuhito Ohsugi, Yusuke Ijima, Hirokazu Kameoka, "DNN-SPACE: DNN-HMM-based generative model of voice F0 contours for statistical phrase/cccent command estimation," in Proc. The 18th Annual Conference of the International Speech Communication Association (Interspeech 2017), pp. 1074-1078, Aug. 2017. (PDF)
Shinji Takaki, Hirokazu Kameoka, Junichi Yamagishi, "Direct modeling of frequency spectra and waveform generation based on phase recovery for DNN-based speech synthesis," in Proc. The 18th Annual Conference of the International Speech Communication Association (Interspeech 2017), pp. 1128-1132, Aug. 2017. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Kaouru Hiramatsu, Kunio Kashino, "Sequence-to-sequence voice conversion with similarity metric learned using generative adversarial networks," in Proc. The 18th Annual Conference of the International Speech Communication Association (Interspeech 2017), pp. 1283-1287, Aug. 2017. (PDF)
Li Li, Hirokazu Kameoka, Tomoki Toda, Shoji Makino, "Speech enhancement using non-negative spectrogram models with mel-generalized cepstral regularization," in Proc. The 18th Annual Conference of the International Speech Communication Association (Interspeech 2017), pp. 1998-2002, Aug. 2017. (PDF)
Takuhiro Kaneko, Shiji Takaki, Hirokazu Kameoka, Junichi Yamagishi, "Generative adversarial network-based postfilter for STFT spectrograms," in Proc. The 18th Annual Conference of the International Speech Communication Association (Interspeech 2017), pp. 3389-3393, Aug. 2017. (PDF) [demo]
Li Li, Hirokazu Kameoka, Shoji Makino, "Discriminative non-negative matrix factorization with majorization-minimization," in Proc. The 5th Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA2017), pp. 141-145, Mar. 2017. (PDF)
Hirokazu Kameoka, Hideaki Kagami, Masahiro Yukawa, "Complex NMF with the generalized Kullback-Leibler divergence," in Proc. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2017), pp. 56-60, Mar. 2017. (PDF)
Hideaki Kagami, Hirokazu Kameoka, Masahiro Yukawa, "A majorization-minimization algorithm with projected gradient updates for time-domain spectrogram factorization," in Proc. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2017), pp. 561-565, 2017. (PDF)
Ryotaro Sato, Hirokazu Kameoka, Kunio Kashino, "Fast algorithm for statistical phrase/accent command estimation based on generative model incorporating spectral features," in Proc. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2017), pp. 5595-5599, Mar. 2017. (PDF)
Takuhiro Kaneko, Hirokazu Kameoka, Nobukatsu Hojo, Yusuke Ijima, Kaoru Hiramatsu, Kunio Kashino, "Generative adversarial network-based postfilter for statistical parametric speech synthesis," in Proc. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2017), pp. 4910-4914, Mar. 2017. (PDF)
Yusuke Tajiri, Hirokazu Kameoka, Tomoki Toda, "A noise suppression method for body-conducted soft speech based on non-negative tensor factorization of air- and body-conducted signals," in Proc. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2017), pp. 4960-4964, Mar. 2017. (PDF)
Aki Hayashi, Hirokazu Kameoka, Tatsushi Matsubayashi, Hiroshi Sawada, "Non-negative periodic component analysis for music source separation," in Proc. Asia Pacific Signal and Information Processing Association Annual Summit and Conference 2016 (APSIPA ASC 2016), Dec. 2016.
Nobutaka Ono, Kazuaki Shibata, Hirokazu Kameoka, "Self-localization and channel synchronization of smartphone arrays using sound emissions," in Proc. Asia Pacific Signal and Information Processing Association Annual Summit and Conference 2016 (APSIPA ASC 2016), Dec. 2016.
Li Li, Hirokazu Kameoka, Takuya Higuchi, Hiroshi Saruwatari, "Semi-supervised joint enhancement of spectral and cepstral sequences of noisy speech," in Proc. The 17th Annual Conference of the International Speech Communication Association (Interspeech 2016), pp. 3753-3757, Sep. 2016. (PDF)
Patrick Lumban Tobing, Tomoki Toda, Hirokazu Kameoka, Satoshi Nakamura, "Acoustic-to-articulatory inversion mapping based on latent trajectory Gaussian mixture model," in Proc. The 17th Annual Conference of the International Speech Communication Association (Interspeech 2016), pp. 953-957, Sep. 2016. (PDF)
Lauri Juvela, Hirokazu Kameoka, Manu Airaksinen, Junichi Yamagishi, Paavo Alku, "Majorisation-minimisation based optimisation of the composite autoregressive system with application to glottal inverse filtering," in Proc. The 17th Annual Conference of the International Speech Communication Association (Interspeech 2016), pp. 968-972, Sep. 2016. (PDF) 〈Selected as a finalist of the Best Student Paper Award〉
Naoki Murata, Hirokazu Kameoka, Keisuke Kinoshita, Shoko Araki, Tomohiro Nakatani, Shoichi Koyama, Hiroshi Saruwatari, "Reverberation-robust underdetermined source separation with non-negative tensor double deconvolution," in Proc. 2016 24th European Signal Processing Conference (EUSIPCO 2016), pp. 1648-1652, Aug. 2016. (PDF)
Naoki Murata, Shoichi Koyama, Hirokazu Kameoka, Norihiro Takamune, Hiroshi Saruwatari, "Sparse sound field decomposition with multichannel extension of complex NMF," in Proc. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2016), pp. 345-349, Mar. 2016. (PDF)
Tomohiko Nakamura, Hirokazu Kameoka, "Shifted and convolutive source-filter non-negative matrix factorization for monaural audio source separation," in Proc. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2016), pp. 489-493, Mar. 2016. (PDF)
Kou Tanaka, Hirokazu Kameoka, Tomoki Toda, Satoshi Nakamura, "Statistical F0 prediction for electrolaryngeal speech enhancement considering generative process of F0 contours within product of experts framework," in Proc. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2016), pp. 5665-5669, Mar. 2016. (PDF)
Hirokazu Kameoka, "Modeling speech parameter sequences with latent trajectory hidden Markov model," in Proc. The 25th IEEE International Workshop on Machine Learning for Signal Processing (MLSP2015), Sep. 2015. (PDF)
Takuya Higuchi, Hirokazu Kameoka, "Unified approach for audio source separation with multichannel factorial HMM and DOA mixture model," in Proc. The 2015 European Signal Processing Conference (EUSIPCO 2015), Aug. 2015.
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Relaxation of rank-1 spatial constraint in overdetermined blind source separation," in Proc. The 2015 European Signal Processing Conference (EUSIPCO 2015), Aug. 2015.
Hirokazu Kameoka, "Multi-resolution signal decomposition with time-domain spectrogram factorization," in Proc. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2015), pp. 86-90, Apr. 2015. (PDF)
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Efficient multichannel nonnegative matrix factorization exploiting rank-1 spatial model," in Proc. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2015), pp. 276-280, Apr. 2015. (PDF) 〈第9回 IEEE Signal Processing Society Japan Chapter Student Conference Paper Award 受賞〉
Tomohiko Nakamura, Hirokazu Kameoka, "Lp-norm non-negative matrix factorization and its application to singing voice enhancement," in Proc. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2015), pp. 2115-2119, Apr. 2015. (PDF)
Ryosuke Sugiura, Yutaka Kamamoto, Noboru Harada, Hirokazu Kameoka, Takehiro Moriya, "Golomb-Rice coding optimized via LPC for frequency domain audio coder," in Proc. of The 2nd IEEE Global Conference on Signal and Information Processing (GlobalSIP 2014), Dec. 2014. (PDF)
Takuya Higuchi, Hirokazu Kameoka, "Unified approach for underdetermined BSS, VAD, dereverberation and DOA estimation with multichannel factorial HMM," in Proc. of The 2nd IEEE Global Conference on Signal and Information Processing (GlobalSIP 2014), Dec. 2014. (PDF)
Daichi Kitamura, Hiroshi Saruwatari, Satoshi Nakamura, Yu Takahashi, Kazunobu Kondo, Hirokazu Kameoka, "Hybrid multichannel signal separation using supervised nonnegative matrix factorization with spectrogram restoration," in Proc. Asia Pacific Signal and Information Processing Association Annual Summit and Conference 2014 (APSIPA ASC 2014), Dec. 2014.
Tomohiko Nakamura, Kotaro Shikata, Norihiro Takamune, Hirokazu Kameoka, "Harmonic-Temporal Factor Decomposition incorporating music prior information for informed monaural source separation," in Proc. The 15th International Society for Music Information Retrieval Conference (ISMIR 2014), pp. 623-628, Oct. 2014. (PDF)
Hirokazu Kameoka, Norihiro Takamune, "Training restricted Boltzmann machines with auxiliary function approach," in Proc. The 24th IEEE International Workshop on Machine Learning for Signal Processing (MLSP2014), Sep. 2014. (PDF)
Norihiro Takamune, Hirokazu Kameoka, "Maximum reconstruction probability training of restricted Boltzmann machines with auxiliary function approach," in Proc. The 24th IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2014), Sep. 2014. (PDF)
Takuya Higuchi, Hirokazu Kameoka, "Joint audio source separation and dereverberation based on multichannel factorial hidden Markov model," in Proc. The 24th IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2014), Sep. 2014. (PDF)
Kento Kadowaki, Tatsuma Ishihara, Nobukatsu Hojo, Hirokazu Kameoka, "Speech prosody generation for text-to-speech synthesis based on generative model of F0 contours," in Proc. The 15th Annual Conference of the International Speech Communication Association (Interspeech 2014), pp. 2322-2326, Sep. 2014. (PDF)
Takuya Higuchi, Hirofumi Takeda, Tomohiko Nakamura, Hirokazu Kameoka, "A unified approach for underdetermined blind signal separation and source activity detection by multichannel factorial hidden Markov models," in Proc. The 15th Annual Conference of the International Speech Communication Association (Interspeech 2014), pp. 850-854, Sep. 2014. (PDF)
Ryosuke Sugiura, Yutaka Kamamoto, Noboru Harada, Hirokazu Kameoka, Takehiro Moriya, "Direct linear conversion of LSP parameters for perceptual control in speech and audio coding," in Proc. The 2014 European Signal Processing Conference (EUSIPCO 2014), TU-L03-2, Sep. 2014. (PDF)
Ryosuke Sugiura, Yutaka Kamamoto, Noboru Harada, Hirokazu Kameoka, Takehiro Moriya, "Representation of spectral envelope with warped frequency resolution for audio coder," in Proc. The 2014 European Signal Processing Conference (EUSIPCO 2014), TU-L03-1, Sep. 2014. (PDF)
Tomohiko Nakamura, Hirokazu Kameoka, "Fast signal reconstruction from magnitude spectrogram of continuous wavelet transform based on spectrogram consistency," in Proc. The 17th International Conference on Digital Audio Effects (DAFx-14), pp. 129-135, Sep. 2014. (PDF)
Daichi Kitamura, Hiroshi Saruwatari, Satoshi Nakamura, Yu Takahashi, Kazunobu Kondo, Hirokazu Kameoka, "Divergence optimization in nonnegative matrix factorization with spectrogram restoration for multichannel signal separation," in Proc. The 4th Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 2014), May 2014.
Takuya Higuchi, Norihiro Takamune, Tomohiko Nakamura, Hirokazu Kameoka, "Underdetermined blind separation and tracking of moving sources based on DOA-HMM," in Proc. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2014), pp. 3215-3219, May 2014. (PDF)
Yasunori Ohishi, Daichi Mochihashi, Hirokazu Kameoka, Kunio Kashino, "Mixture of Gaussian process experts for predicting sung melodic contour with expressive dynamic fluctuations," in Proc. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2014), pp. 3742-3746, May 2014. (PDF)
Masahiro Nakano, Yasunori Ohishi, Hirokazu Kameoka, Ryo Mukai, Kunio Kashino, "Mondrian hidden Markov model for music signal processing," in Proc. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2014), pp. 2424-2428, May 2014. (PDF)
Tomohiko Nakamura, Hirokazu Kameoka, Kazuyoshi Yoshii, Masataka Goto, "Timbre replacement of harmonic and drum components for music audio signals," in Proc. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2014), pp. 7520-7524, May 2014. (PDF)
Masato Tsuchiya, Kazuki Ochiai, Hirokazu Kameoka, Shigeki Sagayama, "Probabilistic model of two-dimensional rhythm tree structure representation for automatic transcription of polyphonic MIDI signals," in Proc. The 2013 Asia Pacific Signal and Information Processing Association (APSIPA) Annual Summit and Conference (APSIPA-ASC 2013), Oct. 2013.
Nobukatsu Hojo, Kota Yoshizato, Hirokazu Kameoka, Daisuke Saito, Shigeki Sagayama, "Text-to-speech synthesizer based on combination of composite wavelet and hidden Markov models," in Proc. The 8th ISCA Speech Synthesis Workshop (SSW8), pp. 129-134, Aug. 2013. (PDF)
Hirokazu Kameoka, Kota Yoshizato, Tatsuma Ishihara, Yasunori Ohishi, Kunio Kashino, Shigeki Sagayama, "Generative modeling of speech F0 contours," in Proc. The 14th Annual Conference of the International Speech Communication Association (Interspeech 2013), pp. 1826-1830, Aug. 2013. (PDF) (Poster)
Tatsuma Ishihara, Hirokazu Kameoka, Kota Yoshizato, Daisuke Saito, Shigeki Sagayama, "Probabilistic speech F0 contour model incorporating statistical vocabulary model of phrase-accent command sequence," in Proc. The 14th Annual Conference of the International Speech Communication Association (Interspeech 2013), pp. 1017-1021, Aug. 2013. (PDF)
Hirokazu Kameoka, Misa Sato, Takuma Ono, Nobutaka Ono, Shigeki Sagayama, "Blind separation of infinitely many sparse sources," in Proc. The 13th International Workshop on Acoustic Signal Enhancement (IWAENC 2012), H-09, Sep. 2012. (PDF) (Poster)
Akisato Kimura, Masashi Sugiyama, Hitoshi Sakano, Hirokazu Kameoka, "Designing various component analysis at will," Accepted for publication in Proc. The 21^st International Conference on Pattern Recognition (ICPR 2012), Nov. 2012.
Hirokazu Kameoka, Kazuki Ochiai, Masahiro Nakano, Masato Tsuchiya, Shigeki Sagayama, "Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms," in Proc. The 13th International Society for Music Information Retrieval Conference (ISMIR 2012), pp. 307-312, Oct. 2012. (PDF) (Poster)
Kota Yoshizato, Hirokazu Kameoka, Daisuke Saito, Shigeki Sagayama, "Hidden Markov convolutive mixture model for pitch contour analysis of speech," in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Mon.O2d.06, Sep. 2012. (PDF) 〈Selected as a finalist of the Best Student Paper Award〉
Yasunori Ohishi, Hirokazu Kameoka, Daichi Mochihashi, Kunio Kashino, "A stochastic model of singing voice F0 contours for characterizing expressive dynamic components," Accepted for publication in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012.
Kota Yoshizato, Hirokazu Kameoka, Daisuke Saito, Shigeki Sagayama, "Statistical approach to Fujisaki-model parameter estimation from speech signals and its quantitative evaluation," in Proc. Speech Prosody 2012, Vol. 1, pp.175-178, May 2012. (PDF)
Kazuki Ochiai, Hirokazu Kameoka, Shigeki Sagayama, "Explicit beat structure modeling for non-negative matrix factorization-based multipitch analysis," in Proc. 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2012), pp. 133-136, Mar. 2012. (PDF)
Hiroshi Sawada, Hirokazu Kameoka, Shoko Araki, Naonori Ueda, "Efficient algorithms for multichannel extensions of Itakura-Saito nonnegative matrix factorization," in Proc. 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2012), pp. 261-264, Mar. 2012. (PDF)
Masahiro Nakano, Yasunori Ohishi, Hirokazu Kameoka, Ryo Mukai, Kunio Kashino, "Bayesian nonparametric music parser," in Proc. 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2012), pp. 461-464, Mar. 2012. (PDF)
Hideyuki Tachibana, Hirokazu Kameoka, Nobutaka Ono, Shigeki Sagayama, "Comparative evaluations of various harmonic/percussive sound separation algorithms based on anisotropic continuity of spectrogram," in Proc. 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2012), pp. 465-468, Mar. 2012. (PDF)
Hirokazu Kameoka, Masahiro Nakano, Kazuki Ochiai, Yutaka Imoto, Kunio Kashino, Shigeki Sagayama, "Constrained and regularized variants of non-negative matrix factorization incorporating music-specific constraints," in Proc. 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2012), pp. 5365-5368, Mar. 2012. (PDF)
Kazuma Takeda, Hirokazu Kameoka, Hiroshi Sawada, Shoko Araki, Takeshi Yamada, Shoji Makino, Shigeki Miyabe, "Undetermined BSS with multichannel complex NMF assuming W-disjoint orthogonality of sources," Accepted for publication in Proc. TENCON2011, 2011.
Hiroshi Sawada, Hirokazu Kameoka, Shoko Araki, Naonori Ueda, "New Formulations and Efficient Algorithms for Multichannel NMF," in Proc. 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA2011), pp. 153-156, Oct. 2011. (PDF)
Masahiro Nakano, Jonathan Le Roux, Hirokazu Kameoka, Tomohiko Nakamura, Nobutaka Ono, Shigeki Sagayama, "Bayesian Nonparametric Spectrogram Modeling Based on Infinite Factorial Infinite Hidden Markov Model," in Proc. 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA2011), pp. 325-328, Oct. 2011. (PDF)
Naoki Yasuraoka, Hirokazu Kameoka, Takuya Yoshioka, Hiroshi G. Okuno, "I-Divergence-Based Dereverberation Method with Auxiliary Function Approach," in Proc. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2011), pp. 369-372, May 2011. (PDF)
Jun Takagi, Yasunori Ohishi, Akisato Kimura, Masashi Sugiyama, Makoto Yamada, Hirokazu Kameoka, "Automatic Audio Tag Classification via Semi-Supervised Canonical Density Estimation," in Proc. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2011), pp. 2232-2235, May 2011. (PDF)
Hiroshi Sawada, Hirokazu Kameoka, Shoko Araki, Naonori Ueda, "Formulations and Algorithms for Multichannel Complex NMF," in Proc. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2011), pp. 229-232, May 2011. (PDF)
Masahiro Nakano, Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Shigeki Sagayama, "Infinite-State Spectrum Model for Music Signal Analysis," in Proc. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2011), pp. 1972-1975, May 2011. (PDF)
Takuho Nakano, Akisato Kimura, Hirokazu Kameoka, Shigeki Miyabe, Shigeki Sagayama, Nobutaka Ono, Kunio Kashino, Takuya Nishimoto, "Automatic Video Annotation via Hierarchical Topic Trajectory Model Considering Cross-Modal Correlations," in Proc. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2011), pp. 2380-2383, May 2011. (PDF)
Hirokazu Kameoka, Jonathan Le Roux, Yasunori Ohishi, "A statistical model of speech F0 contours," ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition (SAPA 2010), pp. 43-48, Sep. 2010. (PDF)
Yasunori Ohishi, Hirokazu Kameoka, Daichi Mochihashi, Hidehisa Nagano, Kunio Kashino, "Statistical modeling of F0 dynamics in singing voices based on Gaussian processes with multiple oscillation bases," in Proc. 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010), pp. 2598-2601, Sep. 2010. (PDF)
Hirokazu Kameoka, Takuya Yoshioka, Mariko Hamamura, Jonathan Le Roux, Kunio Kashino, "Statistical model of speech signals based on composite autoregressive system with application to blind source separation," in Proc. 9th International Conference on Latent Variable Analysis and Signal Separation (LVA/ICA 2010), LNCS 6365, pp. 245-253, Sep. 2010. (PDF)
Jonathan Le Roux, Emmanuel Vincent, Yu Mizuno, Hirokazu Kameoka, Nobutaka Ono, Shigeki Sagayama, "Consistent Wiener filtering: generalized time-frequency masking respecting spectrogram consistency," in Proc. 9th International Conference on Latent Variable Analysis and Signal Separation (LVA/ICA 2010), LNCS 6365, pp. 89-96, Sep. 2010. (PDF)
Masahiro Nakano, Jonathan Le Roux, Hirokazu Kameoka, Yu Kitano, Nobutaka Ono, Shigeki Sagayama, "Nonnegative matrix factorization with Markov-chained bases for modeling time-varying patterns in music spectrograms," in Proc. 9th International Conference on Latent Variable Analysis and Signal Separation (LVA/ICA 2010), LNCS 6365, pp. 149-156, Sep. 2010. (PDF)
Masahiro Nakano, Hirokazu Kameoka, Jonathan Le Roux, Yu Kitano, Nobutaka Ono, Shigeki Sagayama, "Convergence-guaranteed multiplicative algorithms for non-negative matrix factorization with beta-divergence," in Proc. 2010 IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2010) (Formerly the IEEE Workshop on Neural Networks for Signal Processing), pp. 283-288, Aug. 2010. (PDF)
Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Shigeki Sagayama, "Fast signal reconstruction from magnitude STFT spectrogram based on spectrogram consistency," in Proc. Digital Audio Effects 2010 (DAFx-10), pp. 397-403, Sep. 2010. (PDF)
Akisato Kimura, Hirokazu Kameoka, Masashi Sugiyama, Takuho Nakano, Eisaku Maeda, Hitoshi Sakano, Katsuhiko Ishiguro, "SemiCCA: Efficient Semi-supervised Learning of Canonical Correlations," in Proc. 20th International Conference on Pattern Recognition (ICPR2010), pp. 2933-2936, Aug. 2010. (PDF)
Yu Kitano, Hirokazu Kameoka, Yosuke Izumi, Nobutaka Ono, Shigeki Sagayama, "A Sparse Component Model of Source Signals and Its Application to Blind Source Separation," in Proc. 2010 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2010), pp. 4122-4125, Mar. 2010. (PDF)
Takuya Yoshioka, Hirokazu Kameoka, Tomohiro Nakatani, and Hiroshi G. Okuno, "Statistical Models for Speech Dereverberation," in Proc. 2009 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA 2009), pp. 145-148, Oct. 2009. (PDF)
Tatsuya Kako, Yasunori Ohishi, Hirokazu Kameoka, Kunio Kashino and Kazuya Takeda, "Automatic Identification for Singing Style Based on Sung Melodic Contour Characterized in Phase Plane," in Proc. International Conference on Music Information Retrieval, (ISMIR 2009), pp. 393-397, Oct. 2009. (PDF)
Yasuhiro Minami, Hirokazu Kameoka, "Switching Acausal Filters for Speech Modeling," in Proc. 2009 IEEE International Workshop on Machine Learning for Signal Processing (Formerly the IEEE Workshop on Neural Networks for Signal Processing), in CD-ROM, Sep. 2009. (PDF)
Hirokazu Kameoka, Kunio Kashino, "Composite Autoregressive System for Sparse Source-Filter Representation of Speech," in Proc. 2009 IEEE International Symposium on Circuits and Systems (ISCAS2009), pp. 2477-2480, May 2009. (PDF)
Hirokazu Kameoka, Nobutaka Ono, Kunio Kashino, Shigeki Sagayama, "Complex NMF: A New Sparse Representation for Acoustic Signals," in Proc. 2009 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2009), pp. 3437-3440, Apr. 2009. (PDF) (Poster)
Hirokazu Kameoka, Tomohiro Nakatani, Takuya Yoshioka, "Robust Speech Dereverberation Based on Non-negativity and Sparse Nature of Speech Spectrograms," in Proc. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2009), pp. 45-48, Apr. 2009. (PDF)
Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Alain de Cheveigné, Shigeki Sagayama, "Computational Auditory Induction by Missing-Data Non-Negative Matrix Factorization," in Proc. SAPA 2008 Workshop on Statistical and Perceptual Audition (SAPA 2008), pp. 1-6, Sep. 2008. (PDF)
Yasunori Ohishi, Hirokazu Kameoka, Kunio Kashino, Kazuya Takeda, "Parameter Estimation Method of F0 Control Model for Singing Voices," in Proc. Interspeech2008 International Conference on Spoken Language Processing (ICSLP2008), pp.139-142, Sep. 2008. (PDF)
Nobutaka Ono, Ken-ichi Miyamoto, Hirokazu Kameoka, Shigeki Sagayama, "A Real-time Equalizer of Harmonic and Percussive Components in Music Signals," in Proc. Ninth International Conference on Music Information Retrieval (ISMIR2008), pp.139-144, Sep. 2008.
Nobutaka Ono, Ken-ichi Miyamoto, Jonathan Le Roux, Hirokazu Kameoka, Shigeki Sagayama, "Separation of a Monaural Audio Signal into Harmonic/Percussive Components by Complementary Diffusion on Spectrogram," in Proc. 2008 16th European Signal Processing Conference (EUSIPCO 2008), Aug. 2008. (PDF)
Hirokazu Kameoka, Nobutaka Ono, Shigeki Sagayama, "Auxiliary Function Approach to Parameter Estimation of Constrained Sinusoidal Model for Monaural Speech Separation," in Proc. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2008), pp. 29-32, Mar. 2008. (PDF)
Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Shigeki Sagayama, Alain de Cheveigné, "Modulation Analysis of Speech through Orthogonal FIR Filterbank Optimization," in Proc. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2008), pp. 4189-4192, Mar. 2008. (PDF)
Ken-ichi Miyamoto, Hirokazu Kameoka, Takuya Nishimoto, Nobutaka Ono, Shigeki Sagayama, "Harmonic-Temporal-Timbral Clustering (HTTC) for the Analysis of Multi-instrument Polyphonic Music Signals," in Proc. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2008), pp. 113-116, Mar. 2008. (PDF)
Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Alain de Cheveigné, Shigeki Sagayama, "Single Channel Speech and Background Segregation through Harmonic-Temporal Clustering," in Proc. 2007 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA2007), pp. 279-282, Oct. 2007. (PDF)
Ken-ichi Miyamoto, Hirokazu Kameoka, Haruto Takeda, Takuya Nishimoto, Shigeki Sagayama, "Probabilistic Approach to Automatic Music Transcription from Audio Signals," in Proc. 2007 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2007), Vol. 2, pp. 697-700, Apr. 2007.
Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Alain de Cheveigné, Shigeki Sagayama, "Harmonic-Temporal Clustering of Speech for Single and Multiple F0 Contour Estimation in Noisy Environments," in Proc. 2007 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2007), Vol. 4, pp. 1053-1056, Apr. 2007.
Nobutaka Ono, Shoichiro Saito, Hirokazu Kameoka, Shigeki Sagayama, "Inverse Filter Analysis of Common Harmonic Structure on Specmurt Using Riemann's Zeta Function," in Proc. 4th Joint meeting of ASA and ASJ, 2006.
Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, Shigeki Sagayama, "Parametric Spectrogram Modeling of Single and Concurrent Speech with Spline Pitch Contour," in Proc. 4th Joint meeting of ASA and ASJ , Nov. 2006.
Yuichiro Yonebayashi, Hirokazu Kameoka, Shigeki Sagayama, "Automatic Determination of Piano Fingering Based on a Hidden Markov Model," in Proc. the 20th International Joint Conference on Artificial Intelligence (IJCAI2007), pp.2915-2921, Jan. 2007.
Hirokazu Kameoka, Jonathan Le Roux, Nobutaka Ono, Shigeki Sagayama, "Speech Analyzer Using a Joint Estimation Model of Spectral Envelope and Fine Structure," in Proc. Interspeech2006 International Conference on Spoken Language Processing (ICSLP2006), pp. 2502-2505, Sep. 2006. (PDF)
Shoichiro Saito, Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "Specmurt Analysis of Multi-Pitch Music Signals with Adaptive Estimation of Common Harmonic Structure," in Proc. International Conference on Music Information Retrieval (ISMIR2005), pp. 84-91, Sep. 2005. (PDF)
Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "Harmonic-temporal structured clustering via deterministic annealing EM algorithm for audio feature extraction," in Proc. International Conference on Music Information Retrieval (ISMIR2005), pp. 115-122, Sep. 2005. 〈情報科学国際交流財団研究者海外派遣助成〉
Shigeki Sagayama, Hirokazu Kameoka, Shoichiro Saito, Takuya Nishimoto, "'Specmurt Anasylis' of Multi-Pitch Signals," in Proc. IEEE-EURASIP, International Workshop on Nonlinear Signal and Image Processing (NSIP2005), in CD-ROM, 2005.
Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "Audio Stream Segregation of Multi-Pitch Music Signal Based on Time-Space Clustering Using Gaussian Kernel 2-Dimensional Model," in Proc. 2005 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2005), Vol. 3, pp. 5-8, Mar. 2005. (PDF) 〈Selected as a finalist of the Student Paper Contest〉
Shigeki Sagayama, Keigo Takahashi, Hirokazu Kameoka, Takuya Nishimoto, "Specmurt Anasylis: A Piano-Roll-Visualization of Polyphonic Music Signal by Deconvolution of Log-Frequency Spectrum," in Proc. ISCA Tutorial and Research Workshop on Statistical and Perceptual Audio Processing (SAPA2004), Oct. 2004. (PDF)
Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "Multi-Pitch Trajectory Estimation of Concurrent Speech Based on Harmonic GMM and Nonlinear Kalman Filtering," in Proc. Interspeech2004 International Conference on Spoken Language Processing (ICSLP2004), vol. 1, pp. 2433-2466, Oct. 2004.
Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "Separation of Harmonic Structures Based on Tied Gaussian Mixture Model and Information Criterion for Concurrent Sounds," in Proc. 2004 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2004), vol. 4, pp. 297-300, May. 2004. (PDF) 〈第20回電気通信普及財団テレコムシステム技術学生賞受賞〉
Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "Multi-pitch Detection Algorithm Using Constrained Gaussian Mixture Model and Information Criterion for Simultaneous Speech," in Proc. Speech Prosody (SP2004), pp. 533-536, Mar. 2004. (PDF)
Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "Accurate F₀ Detection Algorithm for Concurrent Sounds Based on EM Algorithm and Information Criterion," in Proc. Special Workshop in MAUI (SWIM), Jan. 2004. (PDF)
Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "Extraction of Multiple Fundamental Frequencies from Polyphonic Music Using Harmonic Clustering," in Proc. 18th International Congress on Acoustics (ICA2004), in CD-ROM, Apr. 2004. (PDF)

Books

Hirokazu Kameoka, Hiroshi Sawada, Takuya Higuchi, "General formulation of multichannel extensions of NMF variants," in Audio Source Separation, S. Makino (Ed.), Springer, to appear in 2018.
Daichi Kitamura, Nobutaka Ono, Hiroshi Sawada, Hirokazu Kameoka, Hiroshi Saruwatari, "Determined Blind Source Separation with Independent Low-Rank Matrix Analysis," in Audio Source Separation, S. Makino (Ed.), Springer, to appear in 2018.
Alexey Ozerov, Hirokazu Kameoka, "Gaussian model based multichannel separation," in Audio Source Separation and Speech Enhancement, E. Vincent, T. Virtanen, S. Gannot (Eds.), Springer, to appear in Aug. 2018.
Hirokazu Kameoka, "Non-negative matrix factorization and its variants for audio signal processing," in Applied Matrix and Tensor Variate Data Analysis, T. Sakata (Ed.), Springer Japan, Feb. 2016. (link)
Hirokazu Kameoka, "Probabilistic modeling of pitch contours towards prosody synthesis and conversion," in Speech Prosody in Speech Synthesis: Modeling and generation of prosody for high quality and flexible speech synthesis, K. Hirose, J. Tao (eds.), Springer-Verlag Berlin Heidelberg, 2015.

Review Papers

亀岡弘和, "深層学習に基づく音源分離," 日本音響学会誌, vol. 75, no. 9, pp. 525-531, Sep. 2019. (PDF)
亀岡弘和, "深層生成モデルを用いた音声音響信号処理," 計測と制御, vol. 58, no. 3, pp. 195-202, Mar. 2019. (PDF)
Hiroshi Sawada, Nobutaka Ono, Hirokazu Kameoka, Daichi Kitamura and Hiroshi Saruwatari, "A review of blind source separation methods: two converging routes to ILRMA originating from ICA and NMF," APSIPA Transactions on Signal and Information Processing, vol. 8, e12, pp. 1-14, May 2019. (PDF) 〈The 6th APSIPA Sadaoki Furui Prize Paper Award〉
入江豪, 亀岡弘和, 木村昭悟, 平松薫, 柏野邦夫, "音から画像認識結果を予測するクロスメディア情景分析技術," NTT技術ジャーナル, pp. 24--28, vol. 16, no. 11, Nov. 2018. (PDF)
亀岡弘和, "音楽と統計的信号処理," 映像情報メディア学会誌, vol. 71, no. 4, pp. 10-14, Jul. 2017. (PDF) 〈映像情報メディア学会誌7月号ベストオーサー〉
Takehiro Moriya, Ryosuke Sugiura, Yutaka Kamamoto, Hirokazu Kameoka and Noboru Harada, ``Progress in LPC-based frequency-domain audio coding,'' APSIPA Transactions on Signal and Information Processing, 2016.
守谷健弘, 杉浦亮介, 鎌本優, 亀岡弘和, 原田登, "線形予測を用いる音響符号化の進展," 電子情報通信学会技術報告, 2016.
亀岡弘和, 鎌本優, 杉浦亮介, "スパース表現に基づく音声音響符号化," 日本音響学会誌, vol. 68, no. 11, pp. 559--565, Nov. 2015. (PDF)
Hirokazu Kameoka, "Generative modeling of voice fundamental frequency contours for prosody analysis, synthesis, and conversion," NTT Technical Review, vol. 13, no. 11, Nov. 2015. (PDF)
亀岡弘和, "音声のイントネーションとアクセントを分析，合成，変換," NTT技術ジャーナル, pp. 10--12, vol. 27, no. 9, Sep. 2015. (PDF)
Hirokazu Kameoka, Tomohiko Nakamura, Norihiro Takamune, "Recent advances in music signal processing techniques,"　 The Journal of Institute of Electronics, Information and Communication Engineers, vol. 98, no. 6, pp. 467--474, Jun. 2015 (in Japanese). (PDF)
亀岡弘和, "点推定における意外な落とし穴（ちょっとしたエッセイ，コーヒーブレーク）," 日本音響学会誌, vol. 70, no. 12, pp. 671, Dec. 2014.
亀岡弘和, "［招待講演］非負値行列因子分解による時系列パターン処理," 電子情報通信学会技術報告, vol. 113, no. 452, SP2013-116, pp. 31-36, Feb. 2014.
亀岡弘和, "非負値行列因子分解とその音響信号処理応用 (招待講演)" 電子情報通信学会技術報告, vol. 112, no. 347, EA2012-118, pp. 53-58, Dec. 2012. (PDF) slides
亀岡弘和, "非負値行列因子分解," 計測と制御, vol. 51, no. 9, pp. 835-844, Sep. 2012. (PDF)
亀岡弘和, "非負値行列因子分解の音響信号処理への応用," 日本音響学会誌, vol. 68, no. 11, pp. 559-565, Nov. 2012. (PDF)
亀岡弘和, "音楽情報処理最前線！第20回: 市販楽曲を自分好みの曲調に変えられるMusic Factorizer," DTM MAGAZINE, vol. 192, 寺島情報企画, pp. 98-99, 2010. (PDF)
亀岡弘和, 嵯峨山茂樹, "多重音解析と自動採譜," 会誌「情報処理」, Vol. 50 No. 8, pp. 711-716, 2009. (PDF)

Invited Talks

Hirokazu Kameoka, "Voice conversion with image-to-image translation and sequence-to-sequence learning approaches," SANE 2019 - Speech and Audio in the Northeast, Oct. 24, 2019. (YouTube)
Hiroshi Sawada, Nobutaka Ono, Hirokazu Kameoka, Daichi Kitamura, "Blind audio source separation on tensor representation (Tutorial)," 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2018), Apr. 16, 2018.
Hirokazu Kameoka, Nobutaka Ono, Hiroshi Saruwatari, "Recent advances in blind adaptive signal processing for audio," IEICE General Conference 2017, Mar. 24, 2017.
Hirokazu Kameoka, Hideaki Kagami, "Complex non-negative matrix factorization: Phase-aware sparse representation of audio spectrograms," The 5th Joint Meeting of the Acoustical Society of America and the Acoustical Society of Japan, Nov. 29, 2016.
Hirokazu Kameoka, "Statistical audio signal processing," The 11th NLP Symposium for Young Researchers, Aug. 28th, 2016.
Hirokazu Kameoka, "Decomposition and reconstruction of audio signals," The 19th Meeting on Image Recognition and Understanding (MIRU2016), Aug. 3, 2016.
Hirokazu Kameoka, "Decomposition and reconstruction of audio signals," IPSJ Ongaku Symposium, May 21st, 2016.
Hirokazu Kameoka, "Probabilistic models and training algorithms for speech and audio signal processing," The 17th Information-Based Induction Sciences Workshop (IBIS2014), Nov. 16, 2014.
Hirokazu Kameoka, "Non-negative matrix factorization and its applications to speech and audio signal processing," The 8th Japan Statistical Society Spring Meeting, Mar 8, 2014.
Hirokazu Kameoka, "Non-negative matrix factorization and its applications to time series processing," Technical Meeting of IEICE/ASJ Speech Committee, Feb. 28, 2014.
Hirokazu Kameoka, "Extracting hidden information from speech and audio signals -Generative modeling approach to speech and audio signal processing-," NTT Communication Science Laboratories Open House 2013, Jun. 7, 2013.
Hirokazu Kameoka, "Non-negative matrix factorization and its applications to audio signal processing," Technical Meeting of ASJ Electroacoustics and IEICE Engineering Acoustics, Dec. 14, 2012.
Hirokazu Kameoka, "Generative modeling approach to speech and audio signal processing," The 15th Information-Based Induction Sciences Workshop (IBIS2012), Nov. 9, 2012.
Hirokazu Kameoka, Masahiro Nakano, Kazuki Ochiai, Yutaka Imoto, Kunio Kashino, Shigeki Sagayama, "Constrained and regularized variants of non-negative matrix factorization incorporating music-specific constraints," 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2012), Mar. 2012.
Hirokazu Kameoka, "Non-negative matrix factorization and its extensions," The 3rd Young Speech Researcher Forum, Oct. 8, 2011.
Hirokazu Kameoka, "Tutorial: Non-negative matrix factorization," IPSJ SIGMUS Annual Symposium 2011, Jul. 27, 2011.
Hirokazu Kameoka, "Introduction to non-negative matrix factorization applied to audio signal processing," Lectures on Subspace 2010 in conjunction with MIRU2010, Jul. 26, 2010.
Hirokazu Kameoka, "Modeling and analysis of audio signals based on sparse representations," The 60th Artificial Intelligence Seminar, Mar. 2, 2010.
Hirokazu Kameoka, "Audio signal processing with sparse representations," The 12th Information-Based Induction Sciences Workshop (IBIS2009), Oct. 20, 2009.
Hirokazu Kameoka, Takuya Nishimoto, Shigeki Sagayama, "Harmonic clustering and informationcriterion for estimating pitches and the number of sources in music," Technical Meeting of IPSJ Special interest group on music and computer (SIGMUS), Oct. 14, 2005.
Hirokazu Kameoka, "EM algorithm and its applications to multipitch analysis," Technical Meeting of ASJ Musical Acoustics, Aug. 19, 2005.

Dr. Hirokazu Kameoka

Ph.D. Thesis

Journals

Preprints

Conference Papers

Books

Review Papers

Invited Talks