强化学习入门系列 (2 篇)
【强化学习入门系列】 第2篇:马尔可夫决策过程(MDP)——强化学习的数学语言

本篇目标:理解 MDP 的完整数学定义,搞清楚"马尔可夫性"的直觉含义,以及状态转移、奖励函数、折扣因子、策略这些概念在数学上是怎么表达的。不会只堆公式,每个概念都会给你一个能抓得住的直觉。

admin 强化学习入门系列 2026-03-04 6 0 23 分钟
【强化学习入门系列】第1篇:什么是强化学习?从游戏说起

假设你现在在玩《超级马里奥》,第一次上手,你完全不知道怎么操作。 你按了一下右键,马里奥往右走了——好像没什么问题。你又按了跳跃,马里奥跳过了一个坑——不错。然后你一头撞上了一个蘑菇怪,扣血了。你心里记住了:遇到蘑菇怪要跳过去。 就这样,你死了一遍又一遍,每一次失败都让你学到一点东...

admin 强化学习入门系列 2026-03-04 7 0 18 分钟