HOME / 研究展示 / データを漏洩させない機械学習
研究展示
データと学習の科学
07

データを漏洩させない機械学習

革新的な非同期分散型学習アルゴリズムと医療画像への応用

データを漏洩させない機械学習
どんな研究

1か所に集約したデータを使ってモデルを学習することが一般的です。しかし、データ量の激増やプライバシー保護の観点からデータ蓄積や学習/推論処理は分散化されるでしょう。データを各ノード(例:基地局)から外に出すことなく、機械学習モデルを学習する手法を提案します。

どこが凄い

分散蓄積されたデータは、統計的に偏っていると仮定することが自然です(例:一部クラスのデータが存在しない)。その状況で、ノード同士がモデル等の変数を非同期に交換(通信)しながら、全データを使って学習したかのようなグローバルモデルを得るアルゴリズムを開発しました。

めざす未来

地域/国/世界中のデータ全体を間接的に取り扱えるようにすることで、プライバシーを保護しながらも、高度な知を形成したり、高性能なサービス(例:医療)を提供できるようにしたいです。

データを漏洩させない機械学習
関連文献

[1] J. Chen, A. H. Sayed, “Diffusion adaptation strategies for distributed optimization and learning over networks,” IEEE Transactions on Signal Processing, Vol. 60, No. 8, pp. 4289–4305, 2012.
[2] B. McMahan, E. Moore, D. Ramage, S. Hampson, B. A. y Arcas, “Communication–efficient learning of deep networks from decentralized data,” in Proc. Artificial Intelligence and Statistics (AISTATS 2017), pp. 1273–1282, 2017.
[3] K. Niwa, N. Harada, G. Zhang, W. B. W Kleijn, “Edge-consensus learning: deep learning on P2P networks with nonhomogeneous data,” in Proc. the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD 2020), pp. 668–678, 2020.
[4] National Institutes of Health (NIH) clinical center, ChestXray14 data set.

展示説明ムービー
Q&A
Q.質問/コメント A.回答
Q.質問/コメント

実験ではノードをリング型につないだとのことですが、分散型を課題として挙げられているのは、時間がかかるもしくは精度が高くないということでしょうか。
また、分散型の方が偏ったデータを許容しやすいということですか。

A.回答

今後、データを集約したくてもできない状況が起こると思っています。国外のサーバーにデータを保存するのが難しい状況は今現在でも起きています。国内にしろ、扱うデータ規模が大きくなるにつれ分散化して蓄積/処理をせざるを得なくなるでしょう。そういう状況で学習や推論をするためにどうしたらいいかが研究の主題です。そのとき、自然にデータが統計的に偏る状況になると思うので、資料にあるような実験を行いました。

Q.質問/コメント

GoogleのFederated Learningとは何が違うのですか?

A.回答

データをノードから出さずにモデルを学習するという目的は共通していますが、(1) 任意のネットワーク上で非同期通信をしながらでも学習が進められる点と、(2) 線形のモデル制約から由来する勾配方向の修正項が存在するため、統計的に異質なデータが各ノードに蓄積されていても学習がうまく進む点で大きく異なります。

Q.質問/コメント

どのようなモデル/問題にも適用可能なのですか?(画像認識、音声認識、言語翻訳など)

A.回答

これはモデルの最適化方法の提案であるので、基本的にはどのような問題/モデルの学習にも適用可能です。

Q.質問/コメント

分散化させることにより、学習時間が短くなるのでしょうか?

A.回答

条件により変わります。統計的におおよそ同質なデータを各ノードが保有している場合には、学習時間を短縮できます(ステップサイズを大きくすることも含む)。しかし、統計的に非同質なデータを各ノードが保有している場合には、学習するのを短縮するのは難しいでしょう。それは、お互いに異なる勾配方向に進むのを防ぐように、修正しているためです。

Q.質問/コメント

どのくらいのノード数まで対応できるのですか?

A.回答

理論上は、ノード数の制限はありません。実際に実験したのは32ノード程度の規模までです。

ポスター
連絡先

丹羽 健太 (Kenta Niwa)協創情報研究部 知能創発環境研究グループ
Email: cs-openhouse-ml@hco.ntt.co.jp

他の研究展示はこちら