为什大家都说rl不说Markov chain
RL强调决策优化,Markov chain只是状态转移模型。
1. 关键信息
- #2:RL关心决策+优化,Markov chain是底层状态转移模型,不是研究对象。Diffusion更像uncontrolled Markov process,RL是controlled stochastic process,区别在于是否要控制。
2. 羊毛/优惠信息
无
3. 最新动态
无
4. 争议或不同意见
- #1认为两者原理差不多,但#2反驳了此观点。
5. 行动建议
无
感觉差不多的原理
大家不说 Markov chain,是因为: RL 关心的是 决策 + 优化 Markov chain 只是 状态转移模型 在 RL 里它只是“底层假设”,不是研究对象 如果你往更深走(比如 diffusion),这个区别会更重要,因为: diffusion:更像 uncontrolled Markov process RL:是 controlled stochastic process 这两个方向本质上就在“要不要控制”这里分叉。
你就惯着他吧