泥潭日报 uscardforum · 每日精选

为什大家都说rl不说Markov chain

内容摘要

RL强调决策优化,Markov chain只是状态转移模型。

1. 关键信息

  • #2:RL关心决策+优化,Markov chain是底层状态转移模型,不是研究对象。Diffusion更像uncontrolled Markov process,RL是controlled stochastic process,区别在于是否要控制。

2. 羊毛/优惠信息

3. 最新动态

4. 争议或不同意见

  • #1认为两者原理差不多,但#2反驳了此观点。

5. 行动建议

原始内容
--- 第 1 楼来自 Startrek 的回复 (2026-04-19 12:56:15 PDT) ---

感觉差不多的原理

--- 第 2 楼来自 jlhqw187 的回复 (2026-04-19 15:15:25 PDT) ---

大家不说 Markov chain,是因为: RL 关心的是 决策 + 优化 Markov chain 只是 状态转移模型 在 RL 里它只是“底层假设”,不是研究对象 如果你往更深走(比如 diffusion),这个区别会更重要,因为: diffusion:更像 uncontrolled Markov process RL:是 controlled stochastic process 这两个方向本质上就在“要不要控制”这里分叉。

--- 第 3 楼来自 Falanta 的回复 (2026-04-19 15:31:08 PDT) ---

你就惯着他吧