系列简介:这个系列的终极目标是帮你看懂 DeepSeek V3 和 R1 的论文。我们不会一上来就冲进复杂的公式,而是从最基础的数学语言开始,一步一步把底层的砖头垒好。第一篇,我们先来搞定那些拦在门口的"符号怪兽"。
我第一次打开一篇深度学习论文的时候,不是被里面的思想吓到的,而是被那些符号吓跑的。
满屏的 Σ、∈、argmax、∝,还有各种上下标叠在一起,看起来像是某种外星语言。但其实,这些符号背后的逻辑并不难,它们本质上只是一种"简写系统"——就像我们平时用"etc."代替"等等",用"vs."代替"对比"一样,数学符号是数学家发明的一套极度简洁的缩写。
一旦你熟悉了这套缩写,打开论文的感觉就会完全不同。
这篇文章会把 AI 论文(包括 DeepSeek V3 和 R1)里最常见的符号一网打尽,每一个都会用大白话解释清楚,配上具体的例子。不追求面面俱到,只求真正理解、真正用得上。
先从最基础的说起。
假设我有 5 个数:2、4、6、8、10,我想把它们加起来,可以写成:
2 + 4 + 6 + 8 + 10
这还好,但如果是 1000 个数呢?写出来就太累了。于是数学家发明了 Σ(读作"西格玛")这个符号,意思就是"把一堆东西加起来"。
标准写法是这样的:
$$\sum_{i=1}^{n} x_i$$
这一串符号翻译成人话就是:把 $x_1, x_2, \ldots, x_n$ 这 n 个数全部加起来。
拆开来看: - i=1 是"从哪里开始数",这里从第 1 个开始 - 上面的 n 是"数到哪里结束" - x_i 是"每一次要加的东西",下标 i 会从 1 变到 n
i=1
n
x_i
回到前面那个例子,2、4、6、8、10 其实就是 2×1、2×2、2×3、2×4、2×5,所以可以写成:
$$\sum_{i=1}^{5} 2i = 2(1) + 2(2) + 2(3) + 2(4) + 2(5) = 30$$
在 AI 论文里怎么用?
Σ 在深度学习里无处不在。举个最简单的例子,神经网络里的一个神经元,它的计算方式是:
$$z = \sum_{i=1}^{n} w_i x_i + b$$
翻译过来就是:把每个输入 $x_i$ 乘以对应的权重 $w_i$,全部加起来,再加一个偏置项 $b$。
这是所有神经网络最基础的操作。你在 DeepSeek V3 论文里会反复看到这种形式,只不过变量名字不同。
有时候你会看到两个 Σ 叠在一起:
$$\sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}$$
不要慌。这只是"先对 j 求和,再对 i 求和",本质上就是把一个矩阵里所有元素加起来。想象一个 Excel 表格,这个公式就是把所有格子里的数字都加一遍。
既然 Σ 是批量加法,那批量乘法就是 Π(读作"派",跟圆周率那个 π 是不同的东西,注意大小写)。
$$\prod_{i=1}^{n} x_i = x_1 \times x_2 \times \cdots \times x_n$$
在 AI 里 Π 用得没有 Σ 多,但在概率论里会经常出现,比如计算多个独立事件同时发生的概率:
$$P(x_1, x_2, \ldots, x_n) = \prod_{i=1}^{n} P(x_i)$$
这个我们在后面讲概率那篇文章里会详细展开。
∈ 读作"属于",表示某个元素是某个集合的成员。
$$x \in \mathbb{R}$$
这句话的意思是"x 是一个实数"。$\mathbb{R}$ 是实数集合(所有能在数轴上表示的数)的专用符号。
AI 论文里最常见的集合符号:
举个例子,DeepSeek V3 论文里会写到某个参数矩阵 $W \in \mathbb{R}^{d \times k}$,意思就是 W 是一个 d 行 k 列的实数矩阵,别的没什么神秘的。
∉ 就是"不属于",加了个斜杠表示否定,这个规律在数学符号里很常见。
在 AI 论文里这俩出现得不多,但你在讲混合专家模型(MoE)的地方可能会看到,用来描述哪些 token 被分配给哪些专家。
这几个符号比较简单,但容易在论文里被忽略。
≤
≥
≈
→
↦
特别说一下 → 在函数定义里的用法,比如:
$$f: \mathbb{R}^n \rightarrow \mathbb{R}$$
这句话的意思是:函数 f 接受一个 n 维向量作为输入,输出一个实数。这是描述神经网络层的标准方式,你会在论文里大量遇到。
这两个符号是 AI 论文里的高频词,DeepSeek R1 里就多次出现。
先看 max,你肯定认识:
$$\max_{x} f(x)$$
意思是"f(x) 能取到的最大值是多少"。
而 argmax 问的不是最大值本身,而是"当 f(x) 取到最大值的时候,x 是什么":
$$\hat{x} = \arg\max_{x} f(x)$$
举个超级具体的例子:
假设我有三个方案,对应的收益是: - 方案 A:收益 5 - 方案 B:收益 9 - 方案 C:收益 3
那么: - max = 9(最大收益是 9) - argmax = 方案 B(让收益最大的方案是 B)
max
argmax
在语言模型里怎么用?
语言模型每次生成一个词,本质上是在做 argmax:
$$\text{下一个词} = \arg\max_{w} P(w \mid \text{上下文})$$
意思是:在所有候选词里,找到条件概率最高的那个词输出。这就是为什么语言模型能"续写"文本。
DeepSeek R1 在强化学习阶段,会用 argmax 来选择最优策略:找到让奖励最大的那个行动。
$$\hat{\theta} = \arg\min_{\theta} L(\theta)$$
这个你在所有机器学习论文里都会看到——找到让损失函数(Loss)最小的参数 θ,这就是模型训练的核心目标。
∝ 读作"正比于",是个容易被忽略的小符号。
$$a \propto b$$
意思是 a 和 b 成正比,也就是说 a = k·b,k 是某个常数。
在论文里,∝ 通常用来简化推导,省略掉那些不影响结论的常数。最典型的例子是在概率推导里:
$$P(A \mid B) \propto P(B \mid A) \cdot P(A)$$
(这其实是贝叶斯定理的简写形式,我们后面会详细讲)
为什么不写等号?因为贝叶斯定理的完整形式还有一个分母 P(B),但这个分母是个常数(不依赖于 A),所以在比较不同 A 的概率时可以省略。∝ 的意思就是"成正比,我省掉常数了"。
这一部分看起来是小事,但真的会让人糊涂。
$x_i$ 表示第 i 个 x,比如 $x_1, x_2, x_3$。
但是!在深度学习论文里,下标有时候不是索引,而是类型标记。比如 DeepSeek V3 论文里会出现:
$$W_Q, W_K, W_V$$
这三个 W 不是"第 Q、K、V 个 W",而是"用于 Query(查询)、Key(键)、Value(值)的权重矩阵",Q、K、V 是角色名字。
所以遇到下标,要看上下文判断它是索引还是角色标记。
$x^2$ 是 x 的平方,这个大家都懂。
但在论文里,上标有时候不是幂次,而是层的编号:
$$h^{(l)}$$
表示第 l 层的隐藏状态(hidden state),括号是为了和幂次区分。也有人直接写 $h^l$,但加括号更严谨。
还有一个常见用法是转置:
$$W^T$$
这是矩阵 W 的转置(行列互换),我们在线性代数那篇会详细讲。
当上标和下标一起出现,比如:
$$\sum_{i=1}^{n} x_i^2$$
拆开来看:下标 i 是循环变量(从 1 到 n),上标 2 是幂次(x 的平方),一点一点来,不要被外观唬住。
$$\lim_{x \to 0} \frac{\sin x}{x} = 1$$
这里 x → 0 意思是"x 趋近于 0",不是"x 等于 0"(因为等于 0 的话分母就是 0 了)。
x → 0
在深度学习里,极限的概念主要用在梯度下降的数学推导里,实际操作时不需要想太多,但看到这个符号不要懵。
这个符号很重要,在 DeepSeek R1 的强化学习部分会出现:
$$x \sim \mathcal{N}(0, 1)$$
意思是"x 服从均值为 0、方差为 1 的正态分布",也就是说 x 是从这个分布里随机采样出来的。
$\mathcal{N}$ 是正态分布的专用符号(花体 N),我们在概率那篇会详细介绍常见分布。
论文里定义一个函数通常有两种写法:
写法一:
$$f(x) = x^2 + 1$$
直接给出表达式,和高中数学一样。
写法二(更正式):
$$f: \mathbb{R} \rightarrow \mathbb{R}, \quad x \mapsto x^2 + 1$$
这个写法的意思是:f 是一个函数,从实数映射到实数,具体规则是把 x 变成 x²+1。
↦(mapsto)和 →(to)的区别: - → 说的是"从哪个集合映射到哪个集合"(类型层面) - ↦ 说的是"具体怎么变换"(元素层面)
$$h(x) = f(g(x))$$
先算 g(x),再把结果塞进 f。在神经网络里,每一层都是一个函数,层叠加在一起就是复合函数。这也是"链式法则"的基础,我们在求导那篇会重点讲。
这个大家都认识,|x| 表示 x 的绝对值,比如 |-3| = 3。
但在矩阵和向量里,|·| 有时候表示行列式(determinant),要看上下文。
$$\|x\|_2 = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}$$
范数是向量"长度"的推广,$L_2$ 范数就是欧几里得距离(就是你在二维平面里算两点距离用的那个公式)。
在正则化(防止过拟合)里经常看到,比如 L2 正则化会在损失函数里加上:
$$\lambda \|W\|_2^2$$
这个 λ 是正则化强度,W 是参数矩阵,整体意思是"不要让参数长得太大"。
$$\mathbb{E}[X] = \sum_{x} x \cdot P(X = x)$$
期望就是加权平均值,权重是概率。
在 DeepSeek R1 的强化学习损失函数里,期望是核心操作:
$$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]$$
翻译过来就是:在策略 π 下,所有可能轨迹的平均奖励。训练的目标就是最大化这个期望。
我们在强化学习那篇会详细推导这个式子。
$$P(A \mid B)$$
读作"在 B 发生的条件下,A 的概率"。这是条件概率,是贝叶斯定理和语言模型的核心。
语言模型的训练目标就是最大化条件概率:
$$\max \prod_{t=1}^{T} P(x_t \mid x_1, x_2, \ldots, x_{t-1})$$
意思是:给定前面所有的词,预测下一个词的概率,把这些概率全乘起来,让结果尽量大。
$$\forall x \in \mathbb{R}, \quad x^2 \geq 0$$
意思是:对于所有实数 x,x 的平方都大于等于 0。
这俩在理论性论文里出现得多,在应用性论文(比如 DeepSeek)里相对少,但遇到了不要懵。
学了这些基础符号,我们来看看 DeepSeek V3 论文里一个真实的公式,感受一下:
MLA(Multi-head Latent Attention)的压缩投影公式:
$$c_t^{KV} = W^{DKV} h_t$$
别怕,我们来拆解: - $c_t^{KV}$:第 t 个时刻,KV 的压缩表示。上标 KV 是角色标记,下标 t 是时间步索引 - $W^{DKV}$:一个权重矩阵,上标 DKV 是名字(Down-projection for KV),不是幂次 - $h_t$:第 t 个时刻的隐藏状态向量 - 整体意思:把隐藏状态 $h_t$ 用矩阵 $W^{DKV}$ 做线性变换,得到压缩后的 KV 表示
是不是没那么可怕了?符号系统本身并不复杂,难的是理解背后的概念——而这正是我们这个系列后续要做的事情。
下面整理一个符号速查表,后面看论文时可以随时翻:
这篇文章我们做了一件事:把论文里最常见的数学符号,用大白话解释了一遍。
这些符号就像是一门语言的字母表——你不需要立刻能写出完整的"句子",但认识这些"字母"是一切的前提。
几个关键点回顾:
第一,Σ 是求和,Π 是求积,遇到不要怕,就是批量加法和批量乘法。
第二,下标不一定是索引,有时候是角色名字;上标不一定是幂次,有时候是层编号,要看上下文。
第三,argmax 和 argmin 问的是"让函数取极值的输入是什么",在优化和强化学习里极其常见。
第四,∝ 是"省略了常数的正比",在概率推导里经常用来简化书写。
第五,~ 表示"服从某个概率分布",是强化学习和生成模型的常客。
下一篇预告:
第2篇,我们聊指数和对数。
你可能会问:高中都学过了,有什么好讲的?
但是!深度学习里的 log 不是单纯的数学运算,它背后有信息论的直觉,有为什么损失函数要用对数的原因,还有数值稳定性的工程考量。这些高中数学课从来不会告诉你。
我们下篇见。
这个系列的目标是让你在读完 47 篇文章后,能顺畅地读懂 DeepSeek V3 和 R1 的每一个公式。慢慢来,砖头打好了,楼才能起高。
还没有评论,来抢沙发吧!
博客管理员
40 篇文章
还没有评论,来抢沙发吧!