为什大家都说rl不说Markov chain

💬 闲聊作者 Startrek 2026-04-19 12:56 PST 原帖 #500313 ↗

内容摘要

RL强调决策优化，Markov chain只是状态转移模型。

1. 关键信息

#2：RL关心决策+优化，Markov chain是底层状态转移模型，不是研究对象。Diffusion更像uncontrolled Markov process，RL是controlled stochastic process，区别在于是否要控制。

2. 羊毛/优惠信息

无

3. 最新动态

无

4. 争议或不同意见

#1认为两者原理差不多，但#2反驳了此观点。

5. 行动建议

无

原始内容

--- 第 1 楼来自 Startrek 的回复 (2026-04-19 12:56:15 PDT) ---

感觉差不多的原理

--- 第 2 楼来自 jlhqw187 的回复 (2026-04-19 15:15:25 PDT) ---

大家不说 Markov chain，是因为： RL 关心的是决策 + 优化 Markov chain 只是状态转移模型在 RL 里它只是“底层假设”，不是研究对象如果你往更深走（比如 diffusion），这个区别会更重要，因为： diffusion：更像 uncontrolled Markov process RL：是 controlled stochastic process 这两个方向本质上就在“要不要控制”这里分叉。

--- 第 3 楼来自 Falanta 的回复 (2026-04-19 15:31:08 PDT) ---

你就惯着他吧

💬 闲聊 · 其他高楼

关于本论坛的会员等级体系 💬 4422
帖子标题
如何成为白金会员 💬 2276
如何成为白金会员需满足阅读、回帖与点赞等条件。
白金会员还挺难保持的 💬 855
白金会员保持难度高，因违规Referral被降级，用户需谨慎互动并注意论坛规则。
全年不落最大障碍 💬 828
“全年不落”挑战：时区、旅行成主要障碍，用户探索自动化与系统Bug，部分用户因断签而放弃，新增用户因回国掉白金而放弃。
Amex大聪明石膏果然来了200k public 💬 763
总结当前大聪明NLL开卡及策略现状与争议。
【Nitan MCP】你的专属泥潭AI助手 (全新2.0震撼发布，Skill支持OpenClaw） 💬 729
帖子标题
错字侠出警 👊 💬 677
错字侠继续出警，聚焦“问券”与“问卷”、“视频”与“视屏”等错别字，并延伸至报税相关信息。
魔改了个论坛脚本，能看 TL(TrustLevel) 升级进度 !!仅供参考实际还有一些暗坑详见描述!! 💬 588
论坛脚本可视化TL升级进度，用户普遍反映升级困难，“被赞”数量成瓶颈，TL等级稳定性变化及账号安全风险引关注。

← 返回 💬 闲聊