一方,強化学習では,エージェントは各状態での行動の評価値を学習する. その状態空間は一般に他のエージェントの観測から構成される. このとき,各エージェントは自分の観測は一定である.しかし, このエージェントの観測は他のエージェントにとって一定ではない. そのため,観測するエージェントを区別すると,状態空間が異なる. 加えて,エージェントが同じタスクを学習していても, 異なる状態空間での評価値は異なる. よって,このようなエージェントは学習結果を直接伝達できない.
そこで本稿では,状態空間の異なるエージェント間での 学習結果の伝達方法を提案する. また,実験により学習時間の短縮を検証する.