非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性

郭先平

Non-stationary MDP Average Model - The Existence of Persistently Optimal (G, B)-Generated Policies

Xian Ping GUO

数学学报 . 2000, (2): 269 -274 . DOI: 10.12386/A2000sxxb0037