Proc. of MACC'97

MACC'97 ポスタセッション論文

状態空間が異なる強化学習エージェント間の学習結果の伝達
上田展久[1]，佐藤泰介[2]
[1]東京工業大学理工学研究科電気電子工学専攻，[2]東京工業大学情報理工学研究科計算工学専攻
連絡先: ueda@cs.titech.ac.jp
梗概
各エージェントが学習結果を互いに伝達すると,互いに学習していない部分を補う. そのとき,その学習すべきものが似ているほど,伝達により学習時間が短縮できる. そして,複数エージェントによる協調問題の解は, 各エージェントで似ている可能性がある.
一方,強化学習では,エージェントは各状態での行動の評価値を学習する. その状態空間は一般に他のエージェントの観測から構成される. このとき,各エージェントは自分の観測は一定である.しかし, このエージェントの観測は他のエージェントにとって一定ではない. そのため,観測するエージェントを区別すると,状態空間が異なる. 加えて,エージェントが同じタスクを学習していても, 異なる状態空間での評価値は異なる. よって,このようなエージェントは学習結果を直接伝達できない.
そこで本稿では,状態空間の異なるエージェント間での学習結果の伝達方法を提案する. また,実験により学習時間の短縮を検証する.
キーワード
強化学習，学習結果の伝達.
論文PSファイル(+gzip)

トップページへ戻る

Wed Jan 21 09:37:36 JST 1998