标题:如何用python实现可列折扣马尔科夫决策过程实例的构造
只看楼主
王晓林
Rank: 1
等 级:新手上路
帖 子:2
专家分:0
注 册:2023-2-23
结帖率:100%
已结贴  问题点数:20 回复次数:2 
如何用python实现可列折扣马尔科夫决策过程实例的构造
最近在最近在学习马尔科夫决策过程,想要找一些离散折扣马尔科夫决策过程,状态集可列,行动集有限,报酬函数有界的实例,尝试过搜论文或者直接搜,找到的好像都不是很理想。请问大家有没有什么好的方法?
或者如果要自己想要写算法构造这样的实例的话应该如何去构造呢?
还有想要学习这方面的python编程的话,各位有没有比较推荐的教材?
看了蛮多篇文章,但是自己开始写就有一种无从下手的感觉TAT
谢谢大家Orz
搜索更多相关主题的帖子: python 构造 过程 学习 实例 
2023-03-01 12:10
东海ECS
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
来 自:Python
等 级:版主
威 望:19
帖 子:376
专家分:1454
注 册:2023-1-24
得分:20 
以下是代码:
程序代码:
import numpy as np

# 初始化状态转移矩阵
transition_matrix = np.array([[0.7, 0.3],
                             [0.4, 0.6]])

# 初始化折扣矩阵
discount_matrix = np.array([[0.1, 0.2],
                            [0.3, 0.4]])

# 初始化状态值函数
state_value_function = np.array([[0, 0],
                                 [0, 0]])

# 迭代更新状态值函数
while True:
    new_state_value_function = np.zeros((2, 2))
    for i in range(2):
        for j in range(2):
            new_state_value_function[i, j] = discount_matrix[i, j] + np.sum(transition_matrix[i, j] * state_value_function[i, :])
    if np.sum(np.abs(state_value_function - new_state_value_function)) < 1e-4:
        break
    state_value_function = new_state_value_function

# 输出状态值函数
print(state_value_function)

希望对你有帮助!

会当凌绝顶,一览众山小.
2023-03-01 19:12
王晓林
Rank: 1
等 级:新手上路
帖 子:2
专家分:0
注 册:2023-2-23
得分:0 
谢谢您,我让孩子看看,希望有用
2023-03-06 10:06



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-511417-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.112503 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved