Publications

Daisuke Niizumi, Daiki Takeuchi, Masahiro Yasuda, Binh Thien Nguyen, Yasunori Ohishi, Noboru Harada (2025). Towards Pre-training an Effective Respiratory Audio Foundation Model. In Interspeech.

Cite Code arXiv

Daiki Takeuchi, Binh Thien Nguyen, Masahiro Yasuda, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada (2025). CLAP-ART: Automated Audio Captioning with Semantic-rich Audio-Representation Tokenizer. In Interspeech.

Binh Thien Nguyen, Masahiro Yasuda, Daiki Takeuchi, Daisuke Niizumi, Yasunori Ohishi, Noboru Harada (2025). Baseline Systems and Evaluation Metrics for Spatial Semantic Segmentation of Sound Scenes. In EUSIPCO.

Cite Code Dataset Project arXiv

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2025). M2D-X:音響信号の汎用事前学習フレームワーク. In JSAI.

Daisuke Niizumi, Daiki Takeuchi, Masahiro Yasuda, Binh Thien Nguyen, Yasunori Ohishi, Noboru Harada (2025). Assessing the Utility of Audio Foundation Models for Heart and Respiratory Sound Analysis. In EMBC.

Cite Code arXiv

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto (2025). 汎用言語音響表現 M2D-CLAP. In 日本音響学会2025年春季研究発表会.

Daiki Takeuchi, Binh Thien Nguyen, Masahiro Yasuda, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada (2025). CLAP-ART: 意味情報を考慮した音響表現トークナイザを用いた音響説明文生成. In 日本音響学会2025年春季研究発表会.

Noboru Harada, Daisuke Niizumi, Yasunori Ohishi, Daiki Takeuchi, Masahiro Yasuda (2024). First-shot 異常音検知のための評価用データ ToyADMOS2#の収録. In 日本音響学会2024年秋季研究発表会.

Shunsuke Tsubaki, Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Keisuke Imoto (2024). Refining Knowledge Transfer on Audio-Image Temporal Agreement for Audio-Text Cross Retrieval. In EUSIPCO.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto (2024). M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation. In Interspeech.

Cite Code arXiv

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2024). Exploring Pre-trained General-purpose Audio Representations for Heart Murmur Detection. In EMBC.

Cite Code arXiv

Yasunori Ohishi, Eita Nakamura, Motoi Omachi, Daisuke Morikawa, Nobutaka Ito, Hiroki Mori (2024). 音学シンポジウム2024開催にあたって. In 情報処理学会研究報告音楽情報科学 (MUS).

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2024). 汎用音響信号表現の心雑音検出への応用. In JSAI.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2024). Masked Modeling Duo: Towards a Universal Audio Pre-Training Framework. In IEEE TASLP.

PDF Cite Code arXiv

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2024). M2D for Speech: 汎用音響信号表現 M2D の音声への特化. In 日本音響学会2024年春季研究発表会.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2023). Masked spectrogram modeling using masked autoencoders for learning general-purpose audio representation. In HEAR.

PDF Cite Code arXiv

Ami Igarashi, Shunsuke Tsubaki, Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Keisuke Imoto (2023). Joint Analysis of Acoustic Scenes and Sound Events Based on Semi-Supervised Approach. In APSIPA.

Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio Kashino (2023). 音響差分説明文生成のための後半層表現の解きほぐし. In 日本音響学会2023年秋季研究発表会.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2023). 入力信号のモデル化を促す表現学習マスクモデリングデュオの提案. In 日本音響学会2023年秋季研究発表会.

Noboru Harada, Daisuke Niizumi, Yasunori Ohishi, Daiki Takeuchi, Masahiro Yasuda (2023). FirstShot異常音検知のためのおもちゃ稼働音データセットとベースライン実装. In 日本音響学会2023年秋季研究発表会.

Masahiro Yasuda, Noboru Harada, Yasunori Ohishi, Akira Nakayama, Shoichiro Saito, Nobutaka Ono (2023). 分散センサに基づくイベント分析のための Masked self-distillation modeling. In 日本音響学会2023年秋季研究発表会.

Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio Kashino (2023). Audio difference captioning utilizing similarity-discrepancy disentanglement. In DCASE.

Noboru Harada, Daisuke Niizumi, Yasunori Ohishi, Daiki Takeuchi, Masahiro Yasuda (2023). First-shot anomaly sound detection for machine condition monitoring: A domain generalization baseline. In EUSIPCO.

Cite Code arXiv

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2023). Masked Modeling Duo for Speech: Specializing General-Purpose Audio Representation to Speech using Denoising Distillation. In Interspeech.

Cite Code arXiv

Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio Kashino (2023). 特徴表現の解きほぐしによる音響差分説明文の生成. In 日本音響学会2023年春季研究発表会.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2023). 汎用音響信号表現 BYOL-A の性能解析. In 日本音響学会2023年春季研究発表会.

Shiqi Zhang, Li Li, Yasunori Ohishi, Daiki Takeuchi, Daisuke Niizumi, Noboru Harada, Shoji Makino (2023). Investigating the impact of patching methods on the use of transformer-based image classification models for audio classification. In 日本音響学会2023年春季研究発表会.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2022). Masked Modeling DUO: Learning Representations by Encouraging both Networks to Model the Input. In ICASSP.

Cite Code arXiv

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2022). BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations. In IEEE TASLP.

PDF Cite Code arXiv

Marc Delcroix, Jorge Bennasar Vázquez, Tsubasa Ochiai, Keisuke Kinoshita, Yasunori Ohishi, Shoko Araki (2022). SoundBeam: Target Sound Extraction Conditioned on Sound-class Labels and Enrollment Clues for Increased Performance and Continuous Learning. In IEEE TASLP.

Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio Kashino (2022). 補助情報付き音響信号検索における識別損失の効果. In 日本音響学会2022年秋季研究発表会.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2022). マスクスペクトログラムモデルによる汎用音響信号表現の学習. In 日本音響学会2022年秋季研究発表会.

Yasunori Ohishi, Marc Delcroix, Tsubasa Ochiai, Shoko Araki, Daiki Takeuchi, Daisuke Niizumi, Akisato Kimura, Noboru Harada, Kunio Kashino (2022). ConceptBeam: Concept Driven Target Speech Extraction. In ACMMM.

PDF Cite DOI arXiv

Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio Kashino (2022). Introducing Auxiliary Text Query-modifier to Content-based Audio Retrieval. In Interspeech.

Cite Code arXiv

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2022). Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model. In EUSIPCO.

Cite Code arXiv

Yasunori Ohishi, Ryu Aihara, Eita Nakamura, Ryosuke Tachibana, Takanobu Nishiura (2022). 音学シンポジウム2022開催にあたって. In 情報処理学会研究報告音楽情報科学 (MUS).

Masahiro Yasuda, Yasunori Ohishi, Shoichiro Saito, Noboru Harada (2022). Multi-view and Multi-modal Event Detection Utilizing Transformer-based Multi-sensor Fusion. In ICASSP.

Masahiro Yasuda, Yasunori Ohishi, Shoichiro Saito (2022). Echo-aware Adaptation of Sound Event Localization and Detection in Unknown Environments. In ICASSP.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2022). 事前学習モデルの複数層特徴量の融合を用いた汎用音響信号表現. In 信学技報.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2022). BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations. In arXiv (Under the review process).

Cite Code arXiv

Marc Delcroix, Jorge Bennasar Vázquez, Tsubasa Ochiai, Keisuke Kinoshita, Yasunori Ohishi, Shoko Araki (2022). SoundBeam: Target sound extraction conditioned on sound-class labels and enrollment clues for increased performance and continuous learning. In arXiv (Under the review process).

Yasunori Ohishi (2022). ビブリオ・トーク -私のオススメ-：言葉をおぼえるしくみー母語から外国語まで. In 情報処理（情報処理学会学会誌）.

Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio Kashino (2022). 音響サンプルとテキスト補助情報に基づく音響コンテンツ検索. In 日本音響学会2022年春季研究発表会.

Daisuke Niizumi, Noboru Harada, Daiki Takeuchi, Yasunori Ohishi, Kunio Kashino (2022). 音の汎用表現のための事前学習モデル BYOL-A の提案. In 日本音響学会2022年春季研究発表会.

Masahiro Yasuda, Yasunori Ohishi, Shoichiro Saito (2022). 反響音情報を利用した音響イベント定位の未知環境適応. In 日本音響学会2022年春季研究発表会.

Noboru Harada, Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi (2022). ToyADMOS2：ドメインシフト環境下での異常音検知のための新たな玩具稼働音データセット. In 日本音響学会2022年春季研究発表会.

Yasunori Ohishi, Marc Delcroix, Tsubasa Ochiai, Shoko Araki, Daiki Takeuchi, Daisuke Niizumi, Akisato Kimura, Noboru Harada, Kunio Kashino (2022). ConceptBeam: 概念に基づく目的音声抽出. In 日本音響学会2022年春季研究発表会.

Noboru Harada, Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Masahiro Yasuda, Shoichiro Saito (2021). ToyADMOS2: Another dataset of minauture-machine operating sounds for anomalous sound detection under domain shift conditions. In DCASE Workshop.

PDF Cite Code Dataset

Masahiro Yasuda, Yasunori Ohishi, Shoichiro Saito, Noboru Harada (2021). 分散カメラ・分散マイクを利用したイベント検出のためのSelf-Attentionに基づくマルチセンサ統合. In 日本音響学会2021年秋季研究発表会.

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2021). BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation. In IJCNN.

Daiki Takeuchi, Yasunori Ohishi, Yuma Koizumi, Daisuke Niizumi, Noboru Harada, Kunio Kashino (2021). 音響説明文生成のためのキーワード推定サブタスクの効果. In 日本音響学会2021年春季研究発表会.

Hirotoshi Takeuchi, Yasunori Ohishi, Kunio Kashino, Hiroshi Saruwatari (2021). 対象調波畳み込み. In 日本音響学会2021年春季研究発表会.

Masahiro Yasuda, Yasunori Ohishi, Shoichiro Saito, Yuma Koizumi (2021). 分散マイク・分散カメラの空間位置情報を活用したマルチモーダルシーン分類. In 日本音響学会2021年春季研究発表会.

Yasunori Ohishi, Yuki Tanaka, Kunio Kashino (2021). Unsupervised co-segmentation for athlete movements and live commentaries using crossmodal temporal proximity. In ICPR.

Yuma Koizumi, Yasunori Ohishi, Daisuke Niizumi, Daiki Takeuchi, Masahiro Yasuda (2020). Audio captioning using pre-trained large-scale language model guided by audio-based similar caption retrieval. In ArXiv.

Daiki Takeuchi, Yuma Koizumi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2020). Effects of word-frequency based pre- and post- processings for audio captioning. In DCASE.

Yasunori Ohishi, Akisato Kimura, Takahito Kawanishi, Kunio Kashino, David Harwath, James Glass (2020). Pair expansion for learning multilingual semantic embeddings using disjoint visually-grounded speech audio datasets. In Interspeech.

Hirotoshi Takeuchi, Kunio Kashino, Yasunori Ohishi, Hiroshi Saruwatari (2020). Harmonic lowering for accelerating harmonic convolution for audio signals. In Interspeech.

Masahiro Yasuda, Yasunori Ohishi, Yuma Koizumi, Noboru Harada (2020). Crossmodal sound retrieval based on specific target co-occurrence denoted with weak labels. In Interspeech.

Hiroaki Ito, Shin Murata, Yasunori Ohishi, Noboru Harada (2020). 非定常音を含む単変量時系列に対する動的モード分解を用いた特徴量抽出及び可視化の検討. In 日本音響学会2020年秋季研究発表会.

Hirotoshi Takeuchi, Kunio Kashino, Yasunori Ohishi, Hiroshi Saruwatari (2020). 調波畳み込みの高速化. In 日本音響学会2020年秋季研究発表会.

Masahiro Yasuda, Yasunori Ohishi, Yuma Koizumi, Noboru Harada (2020). 弱ラベルで示される特定の共起関係に基づいたクロスモーダル音検索. In 日本音響学会2020年秋季研究発表会.

Yuma Koizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino (2020). The NTT DCASE2020 Challenge Task 6 System: Automated audio captioning with keywords and sentence length estimation. In DCASE Challenge.

Yasunori Ohishi, Akisato Kimura, Takahito Kawanishi, Kunio Kashino, David Harwath, James Glass (2020). Trilingual semantic embeddings of visually grounded speech with self-attention mechanisms. In ICASSP.

Hirotoshi Takeuchi, Yasunori Ohishi, Takahito Kawanishi, Kunio Kashino (2020). 環境音とラベル情報のデュアルエンコーダに基づくスペクトログラムマスクの生成. In 日本音響学会2020年春季研究発表会.

Yasunori Ohishi (2019). 環境音分析の研究を促進させる競争型ワークショップ. In 日本音響学会学会誌.

Yasunori Ohishi, Akisato Kimura, Takahito Kawanishi, Kunio Kashino, David Harwath, James Glass (2019). 画像を説明する多言語音声データを利用したクロスモーダル探索. In 信学技報.

Yasunori Ohishi (2019). ビブリオ・トーク -私のオススメ-：世界の不思議な音　奇妙な音の謎を科学で解き明かす. In 情報処理（情報処理学会学会誌）.

Yasunori Ohishi (2014). [Invited] あらゆる音の検出・識別を目指して --音響イベント検出研究の現在と未来--. In 日本音響学会2014年秋季研究発表会.

Masahiro Nakano, Yasunori Ohishi, Hirokazu Kameoka, Ryo Mukai, Kunio Kashino (2014). Mondrian Hidden Markov Model for Music Signal Processing. In ICASSP.

Yasunori Ohishi, Daichi Mochihashi, Hirokazu Kameoka, Kunio Kashino (2014). Mixture of Gaussian Process Experts for Predicting Sung Melodic Contour with Expressive Dynamic Fluctuations. In ICASSP.

Keisuke Imoto, Yasunori Ohishi, Hisashi Uematsu, Hitoshi Ohmuro (2013). Acoustic Scene Analysis Based on Latent Acoustic Topic and Event Allocation. In MLSP.