摘要: 针对现有Markov决策过程自适应决策方法仅研究无限规划水平自适应决策的不足,提出了一种有限规划水平Markov决策过程自适应决策算法.算法的基本思想是运用Bayes理论对未知系统进行"学习",并且在每次决策时以最大概率保证实际决策为最优决策.最后用仿真结果表明了算法的有效性.
中图分类号:
李江洪, 韩正之. 有限规划水平自适应Markov决策过程的参数决策[J]. 应用科学学报, 2000, 18(4): 335-339.
LI Jiang-hong, HAN Zheng-zhi. Parameter Decision Making in Adaptive Markov Decision Process with Finite Planning Horizon[J]. Journal of Applied Sciences, 2000, 18(4): 335-339.