HOME / 研究展示 / 寄せ集めで不揃いなデータでも学習できます
研究展示
データと学習の科学
04

寄せ集めで不揃いなデータでも学習できます

未知ドメイン・未知クラスへの自己教師あり適応学習

寄せ集めで不揃いなデータでも学習できます
どんな研究

深層学習には、質・量ともに学習に適したデータセットが必要になりますが、それが入手可能となる場面は限られます。本研究では、様々な状況や条件で取得した寄せ集めのデータでも、事前に整理することなく、そのまま深層学習に利用できる手法を提案します。

どこが凄い

寄せ集めのデータで学習する場合、「着目すべき情報」だけでなく「無視すべき情報」も捉えてしまい、モデルの認識性能が低下する問題が頻発します。提案手法では、「無視すべき情報」を推定し、この影響を受けないように学習することで、モデルの認識性能を飛躍的に改善しました。

めざす未来

様々な医療機関の診療データや、複数の工場設備のメンテナンスデータなど、現実には不揃いで寄せ集めのデータが多く存在します。本研究によって、これらのデータが活用が容易になり、従来の深層学習の枠組みを越えたデータ活用による、新たなサービスの創出に貢献します

寄せ集めで不揃いなデータでも学習できます
関連文献

[1] 三鼓悠, 入江豪, 伊神大貴, 柴田剛志, “教師なしドメイン適応の一般化とその解法,” 第23回 画像の認識・理解シンポジウム(MIRU), 2020.
[2] Y. Mitsuzumi, G. Irie, D. Ikami, T. Shibata, “Generalized Domain Adaptation,” in Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021.
[3] R. Tobias, R. Stiefelhagen, “Adaptiope: A Modern Benchmark for Unsupervised Domain Adaptation,” in Proc. IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2021.

展示説明ムービー
Q&A
Q.質問/コメント A.回答
Q.質問/コメント

診療データ等の数値データの場合、着目すべき情報とは何にあたり、またどのような方法でそれを破壊するのでしょうか?
(言い換え)「部分ピクセルの位置をシャッフルする」といった方法は、物体 (画像) 認識タスクにおける物体の性質 (ドメイン知識) を用いた破壊方法だと思うのですが、画像以外の一般のデータにおいてはどのような破壊方法を採用するのでしょうか?

A.回答

基本的にはドメイン知識を用いて、学習させたいタスクに適切な破壊方法を選択する必要があります。 画像以外のデータですと、例えば音声データなどの場合、時系列をバラバラにする方法などが考えられます。今後は、本技術の画像以外のデータに対する有効性を検証しつつ、より一般的な方法も検討していきたいと考えています。

Q.質問/コメント

寄せ集めで不揃いなデータとは、具体的にはどのようなデータを想定していますか?

A.回答

例えば、医療や介護などの個人情報が含まれるデータや、監視や設備点検などのデバイスの設置位置ごとにデータが取得されるようなデータを想定しています。医療データにおける個人差や、監視データにおけるデバイスの設置環境のように、これらのデータにはモデルの認識性能を低下させる「無視すべき情報」が内在しています。

ポスター
連絡先

三鼓 悠 (Yu Mitsuzumi) メディア情報研究部 メディア認識研究グループ
Email: cs-openhouse-ml@hco.ntt.co.jp

他の研究展示はこちら