中国科学院数学与系统科学研究院期刊网
非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性
郭先平
Non-stationary MDP Average Model - The Existence of Persistently Optimal (G, B)-Generated Policies
Xian Ping GUO
数学学报 . 2000, (2): 269 -274 .  DOI: 10.12386/A2000sxxb0037