MACC'97 特別セッション(複雑系とマルチエージェント)論文
- 仮想個体と実ロボットとの並列環境強化学習システムにおける諸問題
- 山口 智浩
- 大阪大学大学院 基礎工学研究科
- 連絡先: tomo@sys.es.osaka-u.ac.jp
- 梗概
強化学習法は,環境の静的な性質(ex. マルコフ性)を仮定すれば,学習の収
束性が数学的に保証されるが,環境変動を伴う場合には,時間遅れを伴いなが
ら変動に対して報酬を確率的に最大化するように追随する風見鳥的モデルとみ
なすことができる.しかしながら並列環境の場合には,実ロボット環境での変
動によって生じる,仮想環境とのずれを如何に補正するかといった問題が生じ
る。これを解決するため、環境のモデルとして遷移観測マルコフ決定性
(TOMDP)を定義し、観測不能の状態遷移によって生じる観測状態での非マル
コフ決定性を、観測した状態遷移確率の変動から間接的に推定する方法を提案
する。
- キーワード
部分観測、マルコフ決定過程、強化学習, 遷移観測マルコフ決定性、ジャンプ、
変動点問題、移動最尤推定確率、モデル選択、AIC
-
論文PSファイル(+gzip)
トップページへ戻る
Wed Jan 21 09:37:36 JST 1998