Publications

(2023). First-shot anomaly sound detection for machine condition monitoring: A domain generalization baseline. In EUSIPCO.

Cite Code arXiv

(2023). Masked Modeling Duo for Speech: Specializing General-Purpose Audio Representation to Speech using Denoising Distillation. In Interspeech.

Cite Code arXiv

(2023). 特徴表現の解きほぐしによる音響差分説明文の生成. In 日本音響学会2023年春季研究発表会.

Cite

(2023). 汎用音響信号表現 BYOL-A の性能解析. In 日本音響学会2023年春季研究発表会.

Cite

(2023). Investigating the impact of patching methods on the use of transformer-based image classification models for audio classification. In 日本音響学会2023年春季研究発表会.

Cite

(2022). Masked Modeling DUO: Learning Representations by Encouraging both Networks to Model the Input. In ICASSP.

Cite Code arXiv

(2022). BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations. In IEEE TASLP.

PDF Cite Code arXiv

(2022). SoundBeam: Target Sound Extraction Conditioned on Sound-class Labels and Enrollment Clues for Increased Performance and Continuous Learning. In IEEE TASLP.

PDF Cite arXiv

(2022). 補助情報付き音響信号検索における識別損失の効果. In 日本音響学会2022年秋季研究発表会.

Cite

(2022). マスクスペクトログラムモデルによる汎用音響信号表現の学習. In 日本音響学会2022年秋季研究発表会.

Cite

(2022). ConceptBeam: Concept Driven Target Speech Extraction. In ACMMM.

PDF Cite DOI arXiv

(2022). Introducing Auxiliary Text Query-modifier to Content-based Audio Retrieval. In Interspeech.

Cite Code arXiv

(2022). Composing General Audio Representation by Fusing Multilayer Features of a Pre-trained Model. In EUSIPCO.

Cite Code arXiv

(2022). 音学シンポジウム2022開催にあたって. In 情報処理学会研究報告音楽情報科学 (MUS).

Cite

(2022). Multi-view and Multi-modal Event Detection Utilizing Transformer-based Multi-sensor Fusion. In ICASSP.

PDF Cite arXiv

(2022). Echo-aware Adaptation of Sound Event Localization and Detection in Unknown Environments. In ICASSP.

PDF Cite arXiv

(2022). 事前学習モデルの複数層特徴量の融合を用いた汎用音響信号表現. In 信学技報.

PDF Cite Code

(2022). BYOL for Audio: Exploring Pre-trained General-purpose Audio Representations. In arXiv (Under the review process).

Cite Code arXiv

(2022). SoundBeam: Target sound extraction conditioned on sound-class labels and enrollment clues for increased performance and continuous learning. In arXiv (Under the review process).

Cite arXiv

(2022). 音響サンプルとテキスト補助情報に基づく音響コンテンツ検索. In 日本音響学会2022年春季研究発表会.

Cite

(2022). 音の汎用表現のための事前学習モデル BYOL-A の提案. In 日本音響学会2022年春季研究発表会.

Cite Code

(2022). 反響音情報を利用した音響イベント定位の未知環境適応. In 日本音響学会2022年春季研究発表会.

Cite

(2022). ToyADMOS2:ドメインシフト環境下での異常音検知のための新たな玩具稼働音データセット. In 日本音響学会2022年春季研究発表会.

Cite Code

(2022). ConceptBeam: 概念に基づく目的音声抽出. In 日本音響学会2022年春季研究発表会.

Cite

(2021). ToyADMOS2: Another dataset of minauture-machine operating sounds for anomalous sound detection under domain shift conditions. In DCASE Workshop.

PDF Cite Code Dataset

(2021). 分散カメラ・分散マイクを利用したイベント検出のためのSelf-Attentionに基づくマルチセンサ統合. In 日本音響学会2021年秋季研究発表会.

Cite

(2021). BYOL for Audio: Self-Supervised Learning for General-Purpose Audio Representation. In IJCNN.

PDF Cite Code

(2021). 音響説明文生成のためのキーワード推定サブタスクの効果. In 日本音響学会2021年春季研究発表会.

Cite

(2021). 対象調波畳み込み. In 日本音響学会2021年春季研究発表会.

Cite

(2021). 分散マイク・分散カメラの空間位置情報を活用したマルチモーダルシーン分類. In 日本音響学会2021年春季研究発表会.

Cite

(2020). Audio captioning using pre-trained large-scale language model guided by audio-based similar caption retrieval. In ArXiv.

PDF Cite

(2020). Effects of word-frequency based pre- and post- processings for audio captioning. In DCASE.

PDF Cite Video

(2020). Pair expansion for learning multilingual semantic embeddings using disjoint visually-grounded speech audio datasets. In Interspeech.

PDF Cite

(2020). Harmonic lowering for accelerating harmonic convolution for audio signals. In Interspeech.

PDF Cite Code

(2020). Crossmodal sound retrieval based on specific target co-occurrence denoted with weak labels. In Interspeech.

PDF Cite

(2020). 非定常音を含む単変量時系列に対する動的モード分解を用いた特徴量抽出及び可視化の検討. In 日本音響学会2020年秋季研究発表会.

Cite

(2020). 調波畳み込みの高速化. In 日本音響学会2020年秋季研究発表会.

Cite

(2020). 弱ラベルで示される特定の共起関係に基づいたクロスモーダル音検索. In 日本音響学会2020年秋季研究発表会.

Cite

(2020). The NTT DCASE2020 Challenge Task 6 System: Automated audio captioning with keywords and sentence length estimation. In DCASE Challenge.

PDF Cite

(2020). Trilingual semantic embeddings of visually grounded speech with self-attention mechanisms. In ICASSP.

PDF Cite

(2020). 環境音とラベル情報のデュアルエンコーダに基づくスペクトログラムマスクの生成. In 日本音響学会2020年春季研究発表会.

Cite

(2019). 環境音分析の研究を促進させる競争型ワークショップ. In 日本音響学会学会誌.

Cite

(2019). 画像を説明する多言語音声データを利用したクロスモーダル探索. In 信学技報.

Cite

(2014). Mondrian Hidden Markov Model for Music Signal Processing. In ICASSP.

PDF Cite

(2014). Mixture of Gaussian Process Experts for Predicting Sung Melodic Contour with Expressive Dynamic Fluctuations. In ICASSP.

PDF Cite

(2013). Acoustic Scene Analysis Based on Latent Acoustic Topic and Event Allocation. In MLSP.

PDF Cite