データを漏洩させない機械学習｜研究展示｜NTTコミュニケーション科学基礎研究所オープンハウス2021

NTTコミュニケーション科学基礎研究所オープンハウス2021

NTTコミュニケーション科学基礎研究所オープンハウス2021

HOME / 研究展示 / データを漏洩させない機械学習

研究展示

データと学習の科学

07	データを漏洩させない機械学習革新的な非同期分散型学習アルゴリズムと医療画像への応用

どんな研究	１か所に集約したデータを使ってモデルを学習することが一般的です。しかし、データ量の激増やプライバシー保護の観点からデータ蓄積や学習／推論処理は分散化されるでしょう。データを各ノード（例：基地局）から外に出すことなく、機械学習モデルを学習する手法を提案します。
どこが凄い	分散蓄積されたデータは、統計的に偏っていると仮定することが自然です（例：一部クラスのデータが存在しない）。その状況で、ノード同士がモデル等の変数を非同期に交換（通信）しながら、全データを使って学習したかのようなグローバルモデルを得るアルゴリズムを開発しました。
めざす未来	地域／国／世界中のデータ全体を間接的に取り扱えるようにすることで、プライバシーを保護しながらも、高度な知を形成したり、高性能なサービス（例：医療）を提供できるようにしたいです。

データを漏洩させない機械学習

関連文献

[1] J. Chen, A. H. Sayed, “Diffusion adaptation strategies for distributed optimization and learning over networks,” IEEE Transactions on Signal Processing, Vol. 60, No. 8, pp. 4289?4305, 2012.
[2] B. McMahan, E. Moore, D. Ramage, S. Hampson, B. A. y Arcas, “Communication?efficient learning of deep networks from decentralized data,” in Proc. Artificial Intelligence and Statistics (AISTATS 2017), pp. 1273?1282, 2017.
[3] K. Niwa, N. Harada, G. Zhang, W. B. W Kleijn, “Edge-consensus learning: deep learning on P2P networks with nonhomogeneous data,” in Proc. the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD 2020), pp. 668?678, 2020.
[4] National Institutes of Health (NIH) clinical center, ChestXray14 data set.

展示説明ムービー

動画の公開は終了いたしました。ご了承くださいますようお願いいたします。

関連コンテンツ

Q&A

Q&A の公開は終了いたしました。ご了承くださいますようお願いいたします。

Q.質問/コメント	A.回答
Q.質問/コメント実験ではノードをリング型につないだとのことですが、分散型を課題として挙げられているのは、時間がかかるもしくは精度が高くないということでしょうか。また、分散型の方が偏ったデータを許容しやすいということですか。	A.回答今後、データを集約したくてもできない状況が起こると思っています。国外のサーバーにデータを保存するのが難しい状況は今現在でも起きています。国内にしろ、扱うデータ規模が大きくなるにつれ分散化して蓄積/処理をせざるを得なくなるでしょう。そういう状況で学習や推論をするためにどうしたらいいかが研究の主題です。そのとき、自然にデータが統計的に偏る状況になると思うので、資料にあるような実験を行いました。
Q.質問/コメント GoogleのFederated Learningとは何が違うのですか？	A.回答データをノードから出さずにモデルを学習するという目的は共通していますが、(1) 任意のネットワーク上で非同期通信をしながらでも学習が進められる点と、(2) 線形のモデル制約から由来する勾配方向の修正項が存在するため、統計的に異質なデータが各ノードに蓄積されていても学習がうまく進む点で大きく異なります。
Q.質問/コメントどのようなモデル/問題にも適用可能なのですか？（画像認識、音声認識、言語翻訳など）	A.回答これはモデルの最適化方法の提案であるので、基本的にはどのような問題/モデルの学習にも適用可能です。
Q.質問/コメント分散化させることにより、学習時間が短くなるのでしょうか？	A.回答条件により変わります。統計的におおよそ同質なデータを各ノードが保有している場合には、学習時間を短縮できます(ステップサイズを大きくすることも含む)。しかし、統計的に非同質なデータを各ノードが保有している場合には、学習するのを短縮するのは難しいでしょう。それは、お互いに異なる勾配方向に進むのを防ぐように、修正しているためです。
Q.質問/コメントどのくらいのノード数まで対応できるのですか？	A.回答理論上は、ノード数の制限はありません。実際に実験したのは32ノード程度の規模までです。

ポスター

データを漏洩させない機械学習

アイコンをクリックすると、展示ポスターのPDFが開きます。

連絡先

丹羽健太（Kenta Niwa）協創情報研究部知能創発環境研究グループ
Email: cs-openhouse-ml@hco.ntt.co.jp

他の研究展示はこちら

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

アンケートへのご協力、誠にありがとうございました

記載していただいた個人情報は、弊社研究の品質向上やサービス改善に活用させていただきます。
取得した個人情報は、ご本人の同意なしに第三者へ提供することはありません。
また、管理ルールを定め、紛失・漏洩などが発生しないよう積極的な安全対策を実施しています。

お問い合わせ

NTT コミュニケーション科学基礎研究所
〒619-0237　京都府相楽郡精華町光台2-4 （けいはんな学研都市）

TEL : 0774-93-5020　FAX : 0774-93-5026
E-mail : cs-openhouse-ml@hco.ntt.co.jp

個人情報の取り扱いについて

資料ダウンロード

配布冊子

ポスター

▲

CS研オープンハウスの歴史個人情報の取り扱いについて著作権について

Copyright © 2021 NTT Communication Science Laboratories

▲