数学 - 我的博客

【AI数学入门】第20篇：正则化与负载均衡——L1、L2 与 DeepSeek MoE 的 Expert 均衡损失

前三篇（第17-19篇）把梯度下降、SGD/Mini-batch、Adam 优化器讲透了。AdamW 里的权重衰减（L2 正则化）反复出现，但一直没有正面讲清楚它的数学原理。这一篇补全这块拼图——从正则化的根本动机讲起，推导 L1 和 L2 的几何直觉，再联系到 DeepSeek V3 的 M...

admin AI算法数学入门 2026-03-06 22 0 46 分钟

AI 数学

【AI数学入门】第19篇：Adam 优化器——DeepSeek 训练用的是什么？它的数学原理

第17篇讲了梯度下降的几何原理，第18篇讲了 SGD 的统计性质和 mini-batch 的噪声正则化效果。两篇都暗含一个缺陷：所有参数用同一个学习率。但神经网络里不同参数的梯度量级可以相差几个数量级——嵌入层参数的梯度极小，某些全连接层的梯度很大。

admin AI算法数学入门 2026-03-06 14 0 50 分钟

AI 数学

【AI数学入门】第18篇：随机梯度下降与 Mini-batch——为什么不用全量数据？

上一篇我们推导了梯度下降的数学原理——负梯度是损失下降最快的方向，学习率控制步长，学习率太大振荡、太小收敛慢。

admin AI算法数学入门 2026-03-06 12 0 40 分钟

AI 数学

【AI数学入门】第17篇：梯度下降——沿着坡走到最低点

前六篇（第11-16篇）把概率与信息论打透了——随机变量、贝叶斯定理、MLE、交叉熵、KL散度。

admin AI算法数学入门 2026-03-06 11 0 42 分钟

AI 数学

【AI数学入门】第16篇：KL散度——DeepSeek R1 强化学习中的约束项从何而来？

上一篇我们讲透了信息熵和交叉熵——熵衡量不确定性，交叉熵衡量"用错分布的代价"，最小化交叉熵就是让模型分布靠近真实分布。这一篇深入KL 散度：它是衡量两个概率分布"距离"的工具，交叉熵和它只差一个常数。

admin AI算法数学入门 2026-03-06 13 0 42 分钟

AI 数学

【AI数学入门】第15篇：信息熵与交叉熵——语言模型损失函数的数学根源

上一篇我们推导了 MLE——最大似然估计统一了分类任务的交叉熵损失和回归任务的 MSE 损失。但交叉熵本身来自哪里？为什么叫"交叉"熵？"熵"又是什么？这一篇从信息论的角度重新理解训练损失，把熵、交叉熵、KL 散度这三个概念的关系讲清楚，再联系到 DeepSeek V3 的训练和 R1 的强化学习。

admin AI算法数学入门 2026-03-06 15 0 36 分钟

AI 数学

【AI数学入门】第14篇：最大似然估计（MLE）——模型是怎么"学"出来的？

前三篇我们把概率基础、条件概率与贝叶斯定理、常见概率分布都讲透了。现在有一个自然的问题：分布的参数是怎么从数据里估计出来的？

admin AI算法数学入门 2026-03-06 7 0 38 分钟

AI 数学

【AI数学入门】第13篇：常见概率分布——正态、均匀、伯努利分布的直觉

前两篇我们把概率基础（随机变量、期望、方差）和条件概率与贝叶斯定理讲透了。这一篇聚焦具体的概率分布——它们是深度学习里对数据建模的"语言"，选择什么分布意味着对数据结构做了什么假设。我们从最直觉的角度讲透每个分布，然后联系到 DeepSeek V3/R1 里的具体用途。

admin AI算法数学入门 2026-03-06 6 0 41 分钟

AI 数学

【AI数学入门】第12篇：条件概率与贝叶斯定理——AI 推理的核心思想

上一篇我们把概率基础打好了——随机变量、期望、方差、五种常见分布。这一篇深入一个更核心的概念：条件概率。语言模型的每一次预测，本质上就是在计算条件概率；贝叶斯定理告诉我们如何从已有证据出发更新信念。搞懂这两个概念，你就能真正理解语言模型在做什么，以及 DeepSeek R1 的训练为什么要用强...

admin AI算法数学入门 2026-03-06 6 1 37 分钟

AI 数学

【AI数学入门】第11篇：概率基础——随机变量、分布与期望

前十篇我们把基础数学工具（符号、对数、函数、导数、链式法则）和线性代数（向量、矩阵、点积、高维空间、低秩分解）都打好了底。

admin AI算法数学入门 2026-03-06 6 0 36 分钟

AI 数学

数学 (20 篇)

小白博客

分类

网站统计

热门文章