前言：为什么符号是第一道坎？

admin 2026年02月28日 16:26 18 阅读 21 分钟阅读技术

第1篇：从零开始——读懂论文里那些让人头疼的数学符号

系列简介：这个系列的终极目标是帮你看懂 DeepSeek V3 和 R1 的论文。我们不会一上来就冲进复杂的公式，而是从最基础的数学语言开始，一步一步把底层的砖头垒好。第一篇，我们先来搞定那些拦在门口的"符号怪兽"。

前言：为什么符号是第一道坎？我第一次打开一篇深度学习论文的时候，不是被里面的思想吓到的，而是被那些符号吓跑的。满屏的 Σ、∈、argmax、∝，还有各种上下标叠在一起，看起来像是某种外星语言。但其实，这些符号背后的逻辑并不难，它们本质上只是一种"简写系统"——就像我们平时用"etc."代替"等等"，用"vs."代替"对比"一样，数学符号是数学家发明的一套极度简洁的缩写。一旦你熟悉了这套缩写，打开论文的感觉就会完全不同。这篇文章会把 AI 论文（包括 DeepSeek V3 和 R1）里最常见的符号一网打尽，每一个都会用大白话解释清楚，配上具体的例子。不追求面面俱到，只求真正理解、真正用得上。第一部分：求和与求积——Σ 和 ΠΣ（大写 Sigma）：批量加法的简写先从最基础的说起。假设我有 5 个数：2、4、6、8、10，我想把它们加起来，可以写成：2 + 4 + 6 + 8 + 10这还好，但如果是 1000 个数呢？写出来就太累了。于是数学家发明了 Σ（读作"西格玛"）这个符号，意思就是"把一堆东西加起来"。标准写法是这样的：$$\sum_{i=1}^{n} x_i$$这一串符号翻译成人话就是：把 $x_1, x_2, \ldots, x_n$ 这 n 个数全部加起来。拆开来看： - i=1 是"从哪里开始数"，这里从第 1 个开始 - 上面的 n 是"数到哪里结束" - x_i 是"每一次要加的东西"，下标 i 会从 1 变到 n回到前面那个例子，2、4、6、8、10 其实就是 2×1、2×2、2×3、2×4、2×5，所以可以写成：$$\sum_{i=1}^{5} 2i = 2(1) + 2(2) + 2(3) + 2(4) + 2(5) = 30$$在 AI 论文里怎么用？Σ 在深度学习里无处不在。举个最简单的例子，神经网络里的一个神经元，它的计算方式是：$$z = \sum_{i=1}^{n} w_i x_i + b$$翻译过来就是：把每个输入 $x_i$ 乘以对应的权重 $w_i$，全部加起来，再加一个偏置项 $b$。这是所有神经网络最基础的操作。你在 DeepSeek V3 论文里会反复看到这种形式，只不过变量名字不同。双重 Σ：两层嵌套有时候你会看到两个 Σ 叠在一起：$$\sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij}$$不要慌。这只是"先对 j 求和，再对 i 求和"，本质上就是把一个矩阵里所有元素加起来。想象一个 Excel 表格，这个公式就是把所有格子里的数字都加一遍。Π（大写 Pi）：批量乘法的简写既然 Σ 是批量加法，那批量乘法就是 Π（读作"派"，跟圆周率那个 π 是不同的东西，注意大小写）。$$\prod_{i=1}^{n} x_i = x_1 \times x_2 \times \cdots \times x_n$$在 AI 里 Π 用得没有 Σ 多，但在概率论里会经常出现，比如计算多个独立事件同时发生的概率：$$P(x_1, x_2, \ldots, x_n) = \prod_{i=1}^{n} P(x_i)$$这个我们在后面讲概率那篇文章里会详细展开。第二部分：集合与属于——∈、∉、⊂、∪、∩∈：属于∈ 读作"属于"，表示某个元素是某个集合的成员。$$x \in \mathbb{R}$$这句话的意思是"x 是一个实数"。$\mathbb{R}$ 是实数集合（所有能在数轴上表示的数）的专用符号。AI 论文里最常见的集合符号：

符号

名字

意思

$\mathbb{R}$

实数集

所有实数

$\mathbb{R}^n$

n 维实向量

长度为 n 的向量

$\mathbb{R}^{m \times n}$

m×n 实矩阵

m 行 n 列的矩阵

$\mathbb{N}$

自然数集

0, 1, 2, 3, ...

$\mathbb{Z}$

整数集

..., -2, -1, 0, 1, 2, ...

举个例子，DeepSeek V3 论文里会写到某个参数矩阵 $W \in \mathbb{R}^{d \times k}$，意思就是 W 是一个 d 行 k 列的实数矩阵，别的没什么神秘的。∉ 就是"不属于"，加了个斜杠表示否定，这个规律在数学符号里很常见。集合运算：∪ 和 ∩

∪ 是"并集"，A ∪ B 表示"A 和 B 里所有的元素合在一起"

∩ 是"交集"，A ∩ B 表示"A 和 B 里都有的元素"

在 AI 论文里这俩出现得不多，但你在讲混合专家模型（MoE）的地方可能会看到，用来描述哪些 token 被分配给哪些专家。第三部分：比较与趋近——≤、≥、≈、→、↦这几个符号比较简单，但容易在论文里被忽略。

≤：小于等于

≥：大于等于

≈：约等于，比如 e ≈ 2.718

→：趋向，或者"映射到"（后面会用到）

↦：精确的"映射到"，用于函数定义（比 → 更正式）

特别说一下 → 在函数定义里的用法，比如：$$f: \mathbb{R}^n \rightarrow \mathbb{R}$$这句话的意思是：函数 f 接受一个 n 维向量作为输入，输出一个实数。这是描述神经网络层的标准方式，你会在论文里大量遇到。第四部分：argmax 和 argmin——找到最好的那个这两个符号是 AI 论文里的高频词，DeepSeek R1 里就多次出现。argmax：找到让函数值最大的那个输入先看 max，你肯定认识：$$\max_{x} f(x)$$意思是"f(x) 能取到的最大值是多少"。而 argmax 问的不是最大值本身，而是"当 f(x) 取到最大值的时候，x 是什么"：$$\hat{x} = \arg\max_{x} f(x)$$举个超级具体的例子：假设我有三个方案，对应的收益是： - 方案 A：收益 5 - 方案 B：收益 9 - 方案 C：收益 3那么： - max = 9（最大收益是 9） - argmax = 方案 B（让收益最大的方案是 B）在语言模型里怎么用？语言模型每次生成一个词，本质上是在做 argmax：$$\text{下一个词} = \arg\max_{w} P(w \mid \text{上下文})$$意思是：在所有候选词里，找到条件概率最高的那个词输出。这就是为什么语言模型能"续写"文本。DeepSeek R1 在强化学习阶段，会用 argmax 来选择最优策略：找到让奖励最大的那个行动。argmin：同理，找最小$$\hat{\theta} = \arg\min_{\theta} L(\theta)$$这个你在所有机器学习论文里都会看到——找到让损失函数（Loss）最小的参数 θ，这就是模型训练的核心目标。第五部分：正比于——∝∝ 读作"正比于"，是个容易被忽略的小符号。$$a \propto b$$意思是 a 和 b 成正比，也就是说 a = k·b，k 是某个常数。在论文里，∝ 通常用来简化推导，省略掉那些不影响结论的常数。最典型的例子是在概率推导里：$$P(A \mid B) \propto P(B \mid A) \cdot P(A)$$（这其实是贝叶斯定理的简写形式，我们后面会详细讲）为什么不写等号？因为贝叶斯定理的完整形式还有一个分母 P(B)，但这个分母是个常数（不依赖于 A），所以在比较不同 A 的概率时可以省略。∝ 的意思就是"成正比，我省掉常数了"。第六部分：上下标的语言——下标索引与上标幂次这一部分看起来是小事，但真的会让人糊涂。下标：表示"第几个"$x_i$ 表示第 i 个 x，比如 $x_1, x_2, x_3$。但是！在深度学习论文里，下标有时候不是索引，而是类型标记。比如 DeepSeek V3 论文里会出现：$$W_Q, W_K, W_V$$这三个 W 不是"第 Q、K、V 个 W"，而是"用于 Query（查询）、Key（键）、Value（值）的权重矩阵"，Q、K、V 是角色名字。所以遇到下标，要看上下文判断它是索引还是角色标记。上标：主要是幂次，但也有例外$x^2$ 是 x 的平方，这个大家都懂。但在论文里，上标有时候不是幂次，而是层的编号：$$h^{(l)}$$表示第 l 层的隐藏状态（hidden state），括号是为了和幂次区分。也有人直接写 $h^l$，但加括号更严谨。还有一个常见用法是转置：$$W^T$$这是矩阵 W 的转置（行列互换），我们在线性代数那篇会详细讲。组合起来的复杂符号当上标和下标一起出现，比如：$$\sum_{i=1}^{n} x_i^2$$拆开来看：下标 i 是循环变量（从 1 到 n），上标 2 是幂次（x 的平方），一点一点来，不要被外观唬住。第七部分：约等于和趋向——极限的语言→ 在极限里的用法$$\lim_{x \to 0} \frac{\sin x}{x} = 1$$这里 x → 0 意思是"x 趋近于 0"，不是"x 等于 0"（因为等于 0 的话分母就是 0 了）。在深度学习里，极限的概念主要用在梯度下降的数学推导里，实际操作时不需要想太多，但看到这个符号不要懵。~ 读作"服从分布"这个符号很重要，在 DeepSeek R1 的强化学习部分会出现：$$x \sim \mathcal{N}(0, 1)$$意思是"x 服从均值为 0、方差为 1 的正态分布"，也就是说 x 是从这个分布里随机采样出来的。$\mathcal{N}$ 是正态分布的专用符号（花体 N），我们在概率那篇会详细介绍常见分布。第八部分：函数与映射的表达方式函数的定义方式论文里定义一个函数通常有两种写法：写法一：$$f(x) = x^2 + 1$$直接给出表达式，和高中数学一样。写法二（更正式）：$$f: \mathbb{R} \rightarrow \mathbb{R}, \quad x \mapsto x^2 + 1$$这个写法的意思是：f 是一个函数，从实数映射到实数，具体规则是把 x 变成 x²+1。↦（mapsto）和 →（to）的区别： - → 说的是"从哪个集合映射到哪个集合"（类型层面） - ↦ 说的是"具体怎么变换"（元素层面）复合函数$$h(x) = f(g(x))$$先算 g(x)，再把结果塞进 f。在神经网络里，每一层都是一个函数，层叠加在一起就是复合函数。这也是"链式法则"的基础，我们在求导那篇会重点讲。第九部分：绝对值、范数与期望绝对值 |·|这个大家都认识，|x| 表示 x 的绝对值，比如 |-3| = 3。但在矩阵和向量里，|·| 有时候表示行列式（determinant），要看上下文。范数 ‖·‖$$\|x\|_2 = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}$$范数是向量"长度"的推广，$L_2$ 范数就是欧几里得距离（就是你在二维平面里算两点距离用的那个公式）。在正则化（防止过拟合）里经常看到，比如 L2 正则化会在损失函数里加上：$$\lambda \|W\|_2^2$$这个 λ 是正则化强度，W 是参数矩阵，整体意思是"不要让参数长得太大"。期望 E[·]$$\mathbb{E}[X] = \sum_{x} x \cdot P(X = x)$$期望就是加权平均值，权重是概率。在 DeepSeek R1 的强化学习损失函数里，期望是核心操作：$$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]$$翻译过来就是：在策略 π 下，所有可能轨迹的平均奖励。训练的目标就是最大化这个期望。我们在强化学习那篇会详细推导这个式子。第十部分：条件与逻辑符号竖线 | 表示"条件"$$P(A \mid B)$$读作"在 B 发生的条件下，A 的概率"。这是条件概率，是贝叶斯定理和语言模型的核心。语言模型的训练目标就是最大化条件概率：$$\max \prod_{t=1}^{T} P(x_t \mid x_1, x_2, \ldots, x_{t-1})$$意思是：给定前面所有的词，预测下一个词的概率，把这些概率全乘起来，让结果尽量大。∀ 和 ∃：全称与存在

∀ 读作"对于所有"（for all）

∃ 读作"存在某个"（there exists）

$$\forall x \in \mathbb{R}, \quad x^2 \geq 0$$意思是：对于所有实数 x，x 的平方都大于等于 0。这俩在理论性论文里出现得多，在应用性论文（比如 DeepSeek）里相对少，但遇到了不要懵。第十一部分：DeepSeek 论文里的高频符号预告学了这些基础符号，我们来看看 DeepSeek V3 论文里一个真实的公式，感受一下：MLA（Multi-head Latent Attention）的压缩投影公式：$$c_t^{KV} = W^{DKV} h_t$$别怕，我们来拆解： - $c_t^{KV}$：第 t 个时刻，KV 的压缩表示。上标 KV 是角色标记，下标 t 是时间步索引 - $W^{DKV}$：一个权重矩阵，上标 DKV 是名字（Down-projection for KV），不是幂次 - $h_t$：第 t 个时刻的隐藏状态向量 - 整体意思：把隐藏状态 $h_t$ 用矩阵 $W^{DKV}$ 做线性变换，得到压缩后的 KV 表示是不是没那么可怕了？符号系统本身并不复杂，难的是理解背后的概念——而这正是我们这个系列后续要做的事情。快速查阅手册下面整理一个符号速查表，后面看论文时可以随时翻：

符号

名称

含义

例子

$\sum$

Sigma

求和

$\sum_{i=1}^n x_i$

$\prod$

求积

$\prod_{i=1}^n x_i$

$\in$

属于

元素是集合成员

$x \in \mathbb{R}$

$\mathbb{R}^n$

n维实向量空间

n维实数向量

$W \in \mathbb{R}^{512 \times 64}$

$\arg\max$

参数最大化

让函数最大的输入

$\arg\max_x f(x)$

$\arg\min$

参数最小化

让函数最小的输入

$\arg\min_\theta L(\theta)$

$\propto$

正比于

成正比（省略常数）

$P(A\|B) \propto P(B\|A)P(A)$

$\sim$

服从

随机变量的分布

$x \sim \mathcal{N}(0,1)$

$\mathbb{E}[\cdot]$

期望

加权平均值

$\mathbb{E}[R]$

$\|·\|$

范数

向量长度

$\|W\|_2^2$

$P(A \| B)$

条件概率

给定B时A的概率

$P(词\|上下文)$

$f: A \to B$

映射

函数类型声明

$f: \mathbb{R}^n \to \mathbb{R}$

$\approx$

约等于

近似相等

$\pi \approx 3.14$

$\forall$

全称

对所有...成立

$\forall x, x^2 \geq 0$

$\exists$

存在

至少存在一个

$\exists x, f(x) = 0$

$\nabla$

梯度

偏导数向量

$\nabla_\theta L$

$\cdot^T$

转置

矩阵行列互换

$W^T$

总结与下一步这篇文章我们做了一件事：把论文里最常见的数学符号，用大白话解释了一遍。这些符号就像是一门语言的字母表——你不需要立刻能写出完整的"句子"，但认识这些"字母"是一切的前提。几个关键点回顾：第一，Σ 是求和，Π 是求积，遇到不要怕，就是批量加法和批量乘法。第二，下标不一定是索引，有时候是角色名字；上标不一定是幂次，有时候是层编号，要看上下文。第三，argmax 和 argmin 问的是"让函数取极值的输入是什么"，在优化和强化学习里极其常见。第四，∝ 是"省略了常数的正比"，在概率推导里经常用来简化书写。第五，~ 表示"服从某个概率分布"，是强化学习和生成模型的常客。下一篇预告：第2篇，我们聊指数和对数。你可能会问：高中都学过了，有什么好讲的？但是！深度学习里的 log 不是单纯的数学运算，它背后有信息论的直觉，有为什么损失函数要用对数的原因，还有数值稳定性的工程考量。这些高中数学课从来不会告诉你。我们下篇见。这个系列的目标是让你在读完 47 篇文章后，能顺畅地读懂 DeepSeek V3 和 R1 的每一个公式。慢慢来，砖头打好了，楼才能起高。

登录后参与评论

还没有评论，来抢沙发吧！

管理员

博客管理员

40 篇文章

欢迎来到我的博客 02-28 · 50 阅读

符号 02-28 · 11 阅读

测试 02-28 · 7 阅读

Python Django 入门教程 02-28 · 9 阅读

前言：为什么符号是第一道坎？

评论 (0)

管理员

相关文章