权力标准:NVIDIA FP8 与 Deepseek UE8M0 的深度解析及其对全球 AI 格局的战略影响
摘要
本报告旨在对当前人工智能(AI)领域中两种关键的 8 位浮点数(FP8)格式——由行业巨头 NVIDIA 主导的 E4M3/E5M2 双格式标准,以及由中国 AI 新锐 Deepseek 为推动技术自主而设计的 UE8M0 格式——进行全面而深入的分析。低精度计算的崛起,是应对 AI 模型规模爆炸性增长所带来的算力、内存和能效挑战的战略必然。在这场效率革命的前沿,FP8 格式作为最新的技术演进方向,其标准的制定与采纳已超越纯粹的技术考量,演变为一场关乎产业主导权和国家技术战略的博弈。
报告将首先阐述从传统的 32 位浮点数(FP32)向低精度格式迁移的历史必然性,并解析浮点数表示法的基本原理,为理解不同 FP8 格式之间的核心权衡奠定基础。随后,报告将分别深入剖析 NVIDIA 和 Deepseek 的 FP8 方案。NVIDIA 的 E4M3/E5M2 双格式设计,与其 Hopper 和 Blackwell 架构、Tensor Cores 以及 Transformer 引擎深度耦合,并通过其无处不在的 CUDA 软件生态系统,构建了一个性能卓越但高度封闭的技术壁垒,旨在确立其全球 AI 硬件的事实标准。与之相对,Deepseek 的 UE8M0 格式则是一种截然不同的设计哲学,它优先考虑数值的动态范围而非原生精度,其核心目标是为即将到来的中国国产 AI 加速器提供一个通用、鲁棒且易于实现的硬件接口。
本报告明确指出,这两种标准的分歧不仅是技术路线之争,更是中美在 AI 领域战略博弈的缩影。NVIDIA 的标准是一种“进攻型”策略,旨在通过复杂性与生态锁定来巩固其市场霸权;而 Deepseek 的标准则是一种“防御型”策略,旨在通过解耦与可移植性来对冲地缘政治风险,为中国构建自主可控的 AI 技术全栈铺平道路。这种底层数据格式的分裂,预示着全球技术生态可能走向平行的、互不兼容的两个体系,对全球供应链、开源社区合作以及国际科技竞争格局将产生深远影响。本报告将通过详尽的技术对比、对未来发展趋势的研判以及地缘政治维度的分析,为政策制定者、投资者和技术战略家提供一个理解这场正在进行中的“标准之战”的全面框架。
第一章:效率的驱动:低精度 AI 计算的崛起
1.1 从 FP32 到 FP8:算力竞赛下的必然选择
在人工智能的演进历程中,算力、算法和数据被视为驱动其发展的三驾马车。然而,随着深度学习模型的规模以前所未有的速度膨胀,从百万级参数的 AlexNet 到如今动辄万亿参数的巨型语言模型(LLM),算力需求的增长速度已远远超出了传统硬件性能提升的摩尔定律。在这一背景下,对计算效率的极致追求成为 AI 领域的核心议题,而优化数值表示的精度,正是这场效率革命的关键战场。
传统上,深度学习模型的训练和推理广泛采用 32 位单精度浮点数(FP32)格式 1。FP32 提供了 8 位指数和 23 位尾数,能够以极高的精度和宽广的动态范围表示实数,从而最大限度地减少复杂计算中的舍入误差,确保模型训练的稳定收敛 1。然而,这种高精度是有代价的。每一个 FP32 参数都需要 4 个字节的存储空间,对于一个万亿参数的模型而言,仅存储权重就需要数 TB 的内存。在训练过程中,海量的权重、激活值和梯度数据在计算单元和内存之间频繁交换,巨大的内存占用和带宽压力成为了制约模型规模和训练速度的核心瓶颈 3。此外,执行 FP32 运算需要更多的计算周期和更高的能耗,这直接转化为数据中心高昂的运营成本和巨大的碳足迹 3。
为了打破这一瓶颈,业界开始转向低精度数据格式。这一趋势始于 16 位浮点数(FP16)和谷歌提出的 BFloat16(BF16)格式。FP16 将位数减半,显著降低了内存占用和带宽需求,并允许硬件在相同的时钟周期内执行两倍的运算。BF16 则采用了与 FP32 相同的 8 位指数,牺牲了部分精度以换取更大的动态范围,从而在训练大型模型时表现出更好的稳定性 2。随后,8 位整数(INT8)格式在模型推理(Inference)领域大放异彩,尤其适用于边缘计算设备。通过将训练好的浮点模型量化为 INT8,可以在功耗和内存受限的环境中实现极高的推理吞吐量,尽管这通常伴随着一定的精度损失 3。
8 位浮点数(FP8)是这一演进路径上的最新前沿。它试图在 8 位的极低比特率下,同时兼顾浮点数的大动态范围和整数的计算效率优势。相较于 FP16 或 BF16,FP8 能将内存占用和带宽需求再次减半,并将理论计算吞吐量翻倍 8。这意味着在相同的硬件资源下,可以训练更大规模的模型、使用更大的批量大小(batch size),或者显著缩短训练和推理时间 12。因此,FP8 被视为加速下一代超大规模 AI 模型训练和推理的自然演进方向,是算力竞赛进入白热化阶段的必然选择。
这种从高精度到低精度的迁移,不仅仅是简单的技术优化,它反映了一种更深层次的认知转变。研究发现,深度神经网络对数值噪声具有惊人的鲁棒性 2。模型中的数百万个参数在训练过程中协同工作,单个参数的微小精度损失往往会被整体网络的统计特性所“平均掉”。这为使用更激进的低精度格式打开了大门。低精度计算的崛起,本质上是在“精度”这一看似不可妥协的维度上,进行了一次大胆的、基于实证的权衡,用可控的精度损失换取了计算效率的巨大飞跃,从而将 AI 发展的边界推向了新的高度。
更进一步地,低精度技术不仅是提升效率的工具,更是实现更大规模 AI 的催化剂。表面上看,FP8 的核心价值在于降低训练成本和加快推理速度 3。然而,这些效率提升的直接后果是,在给定的硬件预算和时间窗口内,研究人员和工程师能够训练和部署更大、更复杂的模型 14。在当前大型模型领域,“规模定律”(Scaling Laws)——即模型性能随着参数量、数据量和计算量的增加而可预测地提升——仍然是主导范式。因此,任何能够有效提升“规模化能力”的技术,都具有战略性价值。从这个角度看,低精度技术并非仅仅是优化现有工作流程的战术手段,而是解锁下一代万亿乃至更高参数量模型的关键技术门槛。它重新定义了“有效算力”,将其从单纯的浮点运算次数(FLOPS)扩展为在特定成本约束下能够实现的模型规模和复杂度的能力。
1.2 浮点数表示法基础:符号、指数与尾数
要深入理解 FP8 格式的设计差异及其深远影响,必须首先回归到计算机科学的基础——浮点数的表示法。根据广泛采用的 IEEE 754 标准,一个浮点数由三个核心部分组成,它们共同决定了该数字在实数轴上的位置和精度 2。
- 符号位(Sign Bit, S):通常为 1 位,用于表示数字的正负。0 代表正数,1 代表负数。
- 指数位(Exponent Bits, E):为一组比特位,用于表示数值的“量级”或“尺度”,即小数点所处的位置。指数值经过一个固定的“偏置”(bias)调整,以允许表示正负指数,从而能够覆盖极大和极小的数值。指数位的数量直接决定了浮点格式的动态范围(Dynamic Range)。更多的指数位意味着可以表示的数值范围更广,从接近于零的微小值到巨大的天文数字 11。
- 尾数位(Mantissa Bits, M):也称为有效数位(Significand),是表示数值“有效数字”的一组比特位。在规格化表示中,它通常代表一个介于 1 和 2 之间的小数(小数点前隐含一个为 1 的比特)。尾数位的数量决定了浮点格式的精度(Precision)。更多的尾数位意味着在给定的数值范围内,可以表示的数字更加密集,从而减少舍入误差 11。
一个浮点数 V 的值可以通过以下公式计算得出(以规格化数为便):
V=(−1)S×2(E−bias)×(1.M)
其中 1.M 是由隐含的 1 和尾数位 M 构成的二进制小数。
低精度格式设计的核心,正是在这有限的比特总数(例如 8 位)内,对指数位和尾数位进行权衡与分配。这是一个零和游戏:增加一位指数,就必须减少一位尾数。这个根本性的权衡是理解 NVIDIA E4M3/E5M2 与 Deepseek UE8M0 之间设计哲学差异的关键所在。
- 范围优先(Range-First)策略:分配更多的比特给指数位。这种格式能够表示更大范围的数值,不易发生上溢(overflow,数值过大无法表示)或下溢(underflow,数值过小被舍入为零)。但代价是精度较低,相邻可表示数值之间的“间隙”较大。
- 精度优先(Precision-First)策略:分配更多的比特给尾数位。这种格式在有限的数值范围内具有更高的精度,能够更准确地表示数值。但其动态范围较窄,更容易在计算中遇到超出范围的数值。
这场关于比特分配的权衡,并非纯粹的数学选择,而是深度学习实践需求的直接反映。神经网络的不同部分、不同阶段对数值范围和精度的要求截然不同。例如,模型的权重通常分布在一个相对较小的范围内,但激活值在经过非线性函数后可能出现极端异常值,而梯度的数值范围在反向传播过程中更是可能剧烈波动。因此,一个“完美”的低精度格式需要在这两种需求之间找到最佳平衡点,或者像 NVIDIA 那样,提供多种格式以适应不同场景。
1.3 维持精度的核心技术:混合精度与动态缩放
直接将模型从 FP32 转换为 FP8 会不可避免地引入量化误差,如果处理不当,将导致模型精度严重下降甚至训练过程发散。为了在享受低精度带来的性能红利的同时,最大限度地维持模型准确性,业界发展出了一套复杂而精密的配套技术,其中混合精度训练和动态缩放是两大支柱。
混合精度训练(Automatic Mixed Precision, AMP) 是一种成熟的技术,最初为 FP16 训练而设计,其核心思想是在训练过程中策略性地混合使用不同精度的数值格式 2。该技术主要包含两个关键技巧:
- 权重主副本(Master Copy of Weights):在内存中保留一份 FP32 精度的权重副本。在每次迭代的计算阶段(前向和反向传播),这份 FP32 权重被转换为低精度格式(如 FP16 或 FP8)以利用硬件加速。计算出的低精度梯度在更新权重之前,会被转换回 FP32 格式,用于更新 FP32 的权重主副本。这样既利用了低精度计算的速度优势,又通过高精度更新保证了梯度累积的准确性,避免了微小梯度更新的丢失 2。
- 损失缩放(Loss Scaling):在反向传播开始前,将计算出的损失值乘以一个巨大的缩放因子(例如 2^16)。根据链式法则,这个缩放因子会传递到所有的梯度上,将那些原本可能因数值太小而在低精度格式中下溢为零的梯度值“放大”到可表示的范围内。在更新权重之前,再将梯度除以相同的缩放因子,恢复其原始大小。这一操作极大地提升了低精度训练的稳定性 2。
然而,对于动态范围远比 FP16 窄的 FP8 而言,仅仅依靠混合精度训练是不够的。FP8 的核心挑战在于其有限的数值范围极易导致上溢。为了解决这个问题,动态缩放(Dynamic Scaling) 技术应运而生,并成为 FP8 训练的基石 18。
动态缩放的基本原理是,在将一个高精度张量(如 FP32 或 BF16)转换为 FP8 之前,先找到该张量中所有元素的绝对值的最大值(amax)。然后,计算一个缩放因子(scaling factor),将这个 amax 映射到 FP8 格式所能表示的最大值附近。整个张量的所有元素都乘以这个缩放因子,然后再转换为 FP8。这样,原始张量的数值分布就被“平移”和“缩放”到了 FP8 的有效表示区间内,从而最大限度地减少了溢出 9。在计算完成后,FP8 的结果再通过乘以缩放因子的倒数来“取消缩放”,恢复其原始量级。
实践中,计算和应用缩放因子的策略主要有两种:
- 即时缩放(Just-in-Time Scaling):在当前迭代中,先以高精度格式计算出输出张量,然后计算其 amax 并确定缩放因子,最后再将高精度张量缩放并转换为 FP8。这种方法最为精确,但需要两次数据遍历,会带来显著的性能开销,削弱了使用 FP8 的优势 19。
- 延迟缩放(Delayed Scaling):这是更常用的一种策略。系统会记录过去几次迭代中 amax 的历史值,并基于这个历史记录来预测当前迭代的缩放因子。这样,缩放因子的计算就可以与前向或反向传播的计算并行进行,避免了性能瓶颈。然而,这种方法也存在风险:训练过程中偶然出现的瞬时尖峰值可能会“污染”amax 历史记录,导致后续迭代使用不合适的缩放因子,甚至引起模型发散 18。
这些复杂的管理技术揭示了一个重要事实:FP8 并非一种可以简单替换现有数据类型的“即插即用”技术。它是一个需要软硬件深度协同的系统工程。硬件需要提供高效的 FP8 计算单元,而软件(编译器、驱动、深度学习框架)则必须实现复杂的缩放因子计算、历史值跟踪和动态精度选择逻辑。这种固有的复杂性,也为硬件制造商通过其专有的软件栈来构建强大的生态护城河,从而锁定用户和市场,创造了天然的机会。
此外,低精度计算引入的量化噪声,除了是挑战之外,也可能带来意想不到的好处。有研究指出,在某些情况下,使用较低精度训练的模型反而能达到比高精度训练更高的最终准确率 2。这种现象被归因于低精度计算中固有的、随机性的舍入误差,其效果类似于一种正则化(regularization)手段。在神经网络训练中,正则化技术(如 Dropout)通过向训练过程注入噪声来防止模型对训练数据产生过拟合,从而提高其在未见过数据上的泛化能力。低精度量化所引入的噪声,在某种程度上也起到了类似的作用,帮助模型跳出局部最优解,找到一个更具鲁棒性的最优状态。这揭示了模型精度与最终性能之间存在着一种非线性的、微妙的平衡关系,最优的数值精度并非总是越高越好,而是可能存在一个与模型架构、任务复杂度和数据集特性相关的“甜点区”。这一发现为未来的自动化机器学习(AutoML)和神经架构搜索(NAS)开辟了一个新的优化维度:将数值精度作为可搜索和可优化的超参数之一。
第二章:NVIDIA 的 FP8 生TAI系统:构建全球标准
在全球 AI 硬件市场占据绝对主导地位的 NVIDIA,不仅是低精度计算的积极推动者,更是其标准制定的核心力量。通过前瞻性的格式定义、强大的硬件支持以及无与伦比的软件生态,NVIDIA 正在努力将其 FP8 方案打造为全球范围内不可动摇的行业标准。
2.1 技术深潜:E4M3(精度优先)与 E5M2(范围优先)的双重奏
面对神经网络训练过程中不同张量(权重、激活、梯度)对数值表示的迥异需求,NVIDIA 联合 Intel 和 Arm 提出了一套精巧的、包含两种互补编码的 FP8 格式方案,旨在为不同计算阶段提供最优化的数值特性 9。
- E4M3 (Exponent 4, Mantissa 3):这种格式由 1 个符号位、4 个指数位和 3 个尾数位组成。其设计哲学是“精度优先”。
- 特性:拥有 3 位尾数,E4M3 在三种主流 FP8 变体中提供了最高的相对精度。然而,4 位的指数使其动态范围相对较窄,最大可表示的数值约为 ±448 19。为了尽可能扩展其有限的范围,E4M3 做了一个关键的权衡:它偏离了部分 IEEE 754 标准,不单独表示无穷大(Infinity),而是将其归为“非数值”(NaN, Not a Number)。这一设计决策将原本用于表示无穷大的编码空间释放出来,用于表示更大的常规数值 9。
- 应用场景:由于其较高的精度,E4M3 被推荐用于神经网络的前向传播(forward pass)阶段,特别是用于表示权重(weights)和激活值(activations)。在这些阶段,数值的精细变化对模型的最终输出影响较大,因此更高的精度至关重要 9。
- E5M2 (Exponent 5, Mantissa 2):这种格式由 1 个符号位、5 个指数位和 2 个尾数位组成。其设计哲学是“范围优先”。
- 特性:拥有 5 位指数,E5M2 的动态范围极其宽广,最大可表示数值约 ±57,344,与 16 位的 FP16 格式相当 19。这使得它能够轻松容纳数值波动剧烈的张量。为了实现这一巨大的范围,它完全遵循 IEEE 754 规范,能够表示正负无穷大和多种类型的 NaN 9。代价是,只有 2 位的尾数使其精度成为三者中最低的 4。
- 应用场景:E5M2 的宽广动态范围使其成为处理梯度的理想选择。在反向传播(backward pass)过程中,梯度值可能会经历剧烈的放大或缩小,其范围远比权重和激活值更不可预测。E5M2 能够有效防止梯度计算中的上溢或下溢,确保训练过程的稳定性 9。
NVIDIA 的这种双格式设计,是一种高度工程化的解决方案。它深刻洞察到,没有任何单一的 8 位格式能够完美地同时满足精度和范围的双重需求。因此,它选择将这种复杂性交由其系统来智能管理,在训练的不同阶段动态地为不同类型的张量选择最合适的格式。这种设计不仅在技术上是优越的,更在战略上构筑了壁垒。它要求硬件和软件必须能够无缝地处理和切换这两种格式,这对于试图模仿其方案的竞争对手来说,是一个不小的技术挑战。
2.2 硬件共生:Hopper/Blackwell 架构、Tensor Cores 与 Transformer 引擎
NVIDIA 的 FP8 标准并非孤立的纸面规范,而是与其尖端 GPU 架构的硬件实现深度共生、密不可分。从 Hopper 架构的 H100 GPU 开始,到最新的 Blackwell 架构 B200 GPU,NVIDIA 在芯片层面为 FP8 提供了原生的、极致优化的支持 10。
这一硬件支持的核心是其标志性的 Tensor Cores。Tensor Cores 是专门为深度学习中的核心运算——矩阵乘加(Matrix Multiply-Accumulate, MMA)——而设计的专用计算单元。从第四代(Hopper)和第五代(Blackwell)开始,Tensor Cores 被赋予了直接执行 FP8 矩阵运算的能力。这使得 FP8 计算不再需要通过软件模拟,而是由硬件直接加速,从而实现了相比 FP16 高达 2 到 4 倍的理论吞吐量提升 10。
然而,仅仅拥有硬件执行能力是不够的。如何智能地、自动地在 E4M3、E5M2 和更高精度的 FP16/BF16 之间进行选择和切换,才是发挥 FP8 潜力的关键。为此,NVIDIA 在 Hopper 架构中引入了一项革命性的创新:Transformer 引擎(Transformer Engine) 21。
Transformer 引擎可以被理解为一个位于硬件和软件之间的智能调度层。在模型训练过程中,它会逐层、逐个张量地分析数值的统计特性。基于预设的启发式规则和实时反馈,它能够动态地判断何时可以安全地使用速度更快但精度更低的 FP8 格式进行计算,以及何时必须回退到精度更高的 FP16 格式以避免精度损失。例如,对于 Transformer 模型中的某些层,它可以自动决定在前向传播中使用 E4M3,在后向传播中使用 E5M2,而在其他对精度更敏感的部分(如 LayerNorm 或 Softmax)则保持 FP16。
这种软硬件协同设计的理念,是 NVIDIA 保持其技术领先地位的核心秘诀。FP8 格式(规范)、Tensor Cores(硬件执行单元)和 Transformer 引擎(智能调度逻辑)三者共同构成了一个闭环的、高度优化的系统。它将使用 FP8 的复杂性从用户面前完全隐藏起来,提供了一种“无感”的性能提升体验。用户无需成为数值专家,也无需手动调整代码,就能自动享受到 FP8 带来的训练加速和内存节省。这种极致的易用性和性能表现,使得 NVIDIA 的 FP8 方案极具吸引力。
2.3 CUDA 护城河:通过软件栈巩固生态霸权
如果说强大的硬件是 NVIDIA 的利剑,那么其 CUDA 软件生态系统就是其坚不可摧的护城河。FP8 标准的推广和普及,同样离不开这个庞大生态系统的支撑和赋能。
CUDA 是 NVIDIA 创建的并行计算平台和编程模型,它允许开发者使用 C++、Python 等高级语言直接利用 GPU 的强大计算能力 23。经过十多年的发展,CUDA 及其配套的深度学习库,如 cuDNN(用于深度神经网络基元)、NCCL(用于多 GPU 通信)和 TensorRT(用于推理优化),已经成为 AI 开发的事实标准,几乎所有主流的深度学习框架(如 PyTorch, TensorFlow)都基于 CUDA 进行了深度优化 25。
NVIDIA 将 FP8 的支持无缝地整合进了这个成熟的生态系统中。其中,最关键的软件组件是 Transformer Engine (TE) for PyTorch 库。这个开源库提供了名为 fp8_autocast 的 Python 上下文管理器,极大地简化了 FP8 的使用 19。开发者只需将他们的模型训练代码包裹在
with te.fp8_autocast(): 的代码块中,TE 库就会在后台自动处理所有与 FP8 相关的复杂操作,包括:
- 将输入张量从高精度转换为合适的 FP8 格式(E4M3 或 E5M2)。
- 在每次迭代后,自动计算并更新用于动态缩放的 amax 值。
- 管理 amax 的历史记录,并根据预设算法(如 max 或 most_recent)计算下一次迭代所需的缩放因子。
- 在 FP8 计算完成后,将结果转换回高精度格式。
这种高度的封装和自动化,使得采用 FP8 变得异常简单,极大地降低了开发者的使用门槛。NVIDIA 的战略核心正是生态锁定。通过提供一个从硬件、驱动、编译器到上层库和框架的、端到端高度优化的解决方案,NVIDIA 不仅定义了 FP8 的硬件标准,更重要的是,它定义了 FP8 的软件实现和最佳实践范式。
这种策略构筑了强大的竞争壁垒。竞争对手即使在硬件层面实现了对 E4M3/E5M2 格式的支持,也难以在短时间内复制出与 NVIDIA Transformer Engine 库相媲美的性能和易用性。开发者已经习惯了 CUDA 生态的便利性和稳定性,任何迁移到其他平台的尝试都意味着巨大的代码重写成本、潜在的性能损失和未知的稳定性风险。因此,NVIDIA 的 FP8 标准,在其强大的 CUDA 生态的加持下,具备了极强的用户粘性和市场惯性。
NVIDIA 的双格式 FP8 标准,实际上是一种精心设计的“进攻型标准”。其目的不仅在于最大化自身生态系统内的性能,更在于通过引入和管理复杂性,来增加外部竞争者的模仿壁垒。设计两种格式并要求在训练中动态切换,本身就提升了系统的复杂门槛 9。NVIDIA 凭借其在软硬件协同设计上的深厚积累,通过 Transformer 引擎完美地将这种复杂性转化为性能优势 21。然而,对于竞争者而言,要完整支持这一标准,不仅需要在硬件上实现两种不同的 FP8 数据通路和计算逻辑,还需要开发一套同样高效、稳定、且对开发者友好的软件调度系统来管理它们。这比支持一个单一、静态的 FP8 格式要困难得多。因此,这个看似开放和合作(与 Intel, Arm 共同提出)的标准,其核心实现却内嵌了对 NVIDIA 软硬件架构的深度依赖。它巧妙地利用了“受控的复杂性”作为一种战略武器,将极致的性能优势与强大的生态锁定紧密捆绑在一起。
近期,NVIDIA 提出的 MXFP8 (Microscaling FP8) 概念,则是在这个方向上更进一步,意图加深这种锁定。标准 FP8 对整个张量使用一个统一的缩放因子 19。而 MXFP8 的核心思想是采用更细粒度的缩放,例如,对一个张量中每 32 个(或一个更小的块)连续的值使用一个独立的缩放因子 19。这种“块级缩放”(block scaling)能够更精确地适应张量内部数值的局部变化,从而允许更多的张量(尤其是那些数值分布不均的张量)能够安全地使用精度更高的 E4M3 格式,进一步提升了模型的整体精度和性能 11。不仅如此,MXFP8 还建议使用一种特殊的 E8M0 格式(8 位指数,0 位尾数)来存储这些缩放因子本身,以实现极致的存储效率 19。然而,这种细粒度的块级缩放的硬件实现,严重依赖于 GPU 内部特定的数据加载、存储和管理能力。它将 FP8 的使用推向了一个更深度的、与硬件微架构强相关的层面,使得竞争对手在通用硬件上几乎不可能实现同等的效率。这一举措,旨在将 NVIDIA 的领先优势从“支持 FP8”提升到“高效支持 MXFP8”的更高维度,从而进一步巩固其技术壁垒。
第三章:Deepseek 的 UE8M0:为技术主权打造的标准
在全球 AI 格局的另一端,中国 AI 公司 Deepseek 提出了一个截然不同的 FP8 方案——UE8M0。这一标准的诞生,并非源于对现有 NVIDIA 生态的简单补充或优化,而是植根于深刻的地缘政治背景和国家技术战略考量。UE8M0 是中国 AI 产业在面临外部技术封锁压力下,寻求建立“自主可控”技术体系的一次关键尝试,其设计哲学和战略意图与 NVIDIA 的方案形成了鲜明对比。
3.1 技术深潜:“范围优先于精度”的设计哲学
Deepseek 在其广受关注的 DeepSeek-V3.1 模型中,正式引入并应用了名为“UE8M0 FP8”的全新数据格式 28。尽管其命名(UE8M0)的精确来源和官方解释尚不完全清晰——一些分析推测其可能意指“Unsigned Exponent 8, Mantissa 0”或与 NVIDIA MXFP8 中的缩放因子格式 E8M0 有关 31——但其核心设计理念已经通过分析和实践得以明确。
UE8M0 是一种极端的“范围优先于精度”的 FP8 变体。与 NVIDIA 在指数和尾数之间进行精细权衡不同,UE8M0 的设计思路似乎是将非符号位的大部分甚至全部(可能为 7 或 8 位)都分配给了指数,而尾数位则被压缩到极低(可能为 1 位)甚至为 0 11。这种设计导致 UE8M0 格式本身几乎不携带任何精度信息。
那么,精度从何而来?UE8M0 的设计哲学是将精度管理的任务完全从数据格式本身“剥离”,并转移到两个外部组件上:
- 软件层面的缩放因子(Scaling Factor):与 NVIDIA 的方案类似,UE8M0 严重依赖于对每个张量(per-tensor)甚至每个通道(per-channel)计算的缩放因子。数值的精度信息主要由这个高精度的缩放因子来承载 28。
- 硬件层面的高精度累加器(Accumulator):在进行矩阵乘法等运算时,两个 UE8M0 格式的数值相乘后,其结果会累加到一个更高精度的累加器中,通常是 BF16 或 FP32 格式。最终的计算结果在累加完成后才会被转换回低精度格式。这样,计算过程中的精度损失被控制在最小范围内 28。
这种设计选择的后果是双重的。一方面,UE8M0 格式本身具有极大的动态范围和对数值波动的极高容忍度,这使得它在处理神经网络中各种类型的张量时表现出很强的鲁棒性。另一方面,它对软件框架和硬件计算单元的设计提出了明确要求:必须有高效的、细粒度的缩放策略,并且计算核心必须支持高精度的累加。这种设计简化了数据表示,但将复杂性转移到了计算流程和软件管理中。
3.2 战略使命:为未来的国产 AI 加速器而设计
UE8M0 最核心、最明确的战略目标,是为即将到来的、由中国自主设计和制造的 AI 加速器芯片铺平道路。Deepseek 在多个场合毫不讳言地指出,UE8M0 是为“即将发布的下一代国产芯片”而量身定制的 11。这一声明的背后,是中美科技竞争和美国对华出口管制的宏大背景 34。
随着美国政府不断收紧对先进 AI 芯片(如 NVIDIA H100/H800)和相关制造技术的对华出口,中国 AI 产业面临着前所未有的“算力卡脖子”困境。为了摆脱对外部技术的依赖,中国正在倾举国之力,推动构建一个从芯片设计、制造到软件框架和上层应用的“自主可控”的 AI 技术全栈 37。在这个过程中,涌现出了一批国产 AI 芯片公司,如华为(昇腾系列)、壁仞科技、摩尔线程、燧原科技等 11。
然而,这些国产芯片在架构、性能、功耗以及配套软件的成熟度上与 NVIDIA 的产品存在差距,且彼此之间也缺乏统一的标准。如果中国的 AI 大模型公司(如 Deepseek、智谱 AI 等)继续完全基于 NVIDIA 的技术栈进行研发,其模型将很难高效地迁移到未来的国产硬件平台上。直接将在 NVIDIA GPU 上使用 E4M3/E5M2 训练的模型移植到指令集、数值行为和软件库都不同的国产芯片上,极有可能遭遇严重的性能下降、数值不稳定甚至训练收敛失败等问题 28。
UE8M0 的诞生,正是为了解决这一核心的“可移植性”和“稳定性”难题。它的首要设计目标并非在 NVIDIA GPU 上与 E4M3/E5M2 竞争极致性能,而是要创造一个能够跨越不同硬件平台的、具有最大兼容性的“通用语言”。
3.3 软硬件协同设计作为国家战略
UE8M0 的推出,是中国 AI 产业层面“软硬件协同设计”(Software-Hardware Co-Design)战略的集中体现。这不再是单一公司的商业决策,而是整个国家技术生态为应对外部挑战而采取的集体行动。
UE8M0 在技术上选择了一个对硬件实现要求相对较低的路径。由于其尾数位极少或为零,硬件在执行乘法运算时可以大大简化,降低了芯片设计的复杂度和门槛。同时,其极大的动态范围也减轻了硬件在处理数值溢出方面的压力。这使得不同技术水平、不同架构路线的国产芯片厂商,都能够更容易地在其产品中实现对 UE8M0 的原生支持 32。
通过这样一个统一的、鲁棒性强的数据格式作为“最大公约数”,UE8M0 旨在扮演“粘合剂”的角色,将上层的模型算法创新与下层的硬件芯片创新连接起来。它为中国的 AI 生态系统提供了一个共同的技术基石,使得:
- 模型开发者(如 Deepseek)可以放心地使用 UE8M0 进行模型训练,因为他们确信未来这些模型能够在多种国产硬件上顺利运行,从而摆脱对单一供应商(NVIDIA)的依赖。
- 硬件开发者(如华为等)可以围绕 UE8M0 这个明确的目标来优化其芯片设计和编译器,确保其产品能够高效地承载像 DeepSeek-V3.1 这样的顶级大模型。
- 生态系统得以加速形成。当模型、框架、编译器和芯片都围绕同一个底层数据标准进行优化时,整个生态系统的协同效率将大大提升,从而加速迭代和成熟。
3.4 案例研究:UE8M0 在 DeepSeek-V3.1 大模型中的应用
理论和战略最终需要通过实践来检验。Deepseek 将其拥有 6710 亿总参数的旗舰模型 DeepSeek-V3.1,完全基于 UE8M0 FP8 格式进行了训练,覆盖了模型的权重和激活值 29。这一举动本身就是一次规模空前的、对 UE8M0 有效性的实证检验。
DeepSeek-V3.1 在多个国际权威基准测试中展现了与世界顶级模型(如 GPT-4o)相媲美的性能 14,这强有力地证明了,尽管 UE8M0 在设计上牺牲了原生精度,但通过与先进的模型架构(如专家混合模型 MoE)、高效的训练框架以及精细的软件管理技术相结合,完全可以训练出最先进的大规模 AI 模型 41。
Deepseek 的成功,为其 UE8M0 标准提供了最强大的背书。它向整个行业,特别是中国的 AI 从业者,传递了一个明确的信号:即使在无法获得最顶尖外国芯片的情况下,通过底层格式创新和软硬件协同,中国同样有能力训练出世界一流的大模型。这不仅极大地提振了国内产业的信心,也为其他中国的模型开发者和硬件制造商提供了一个清晰的、可供效仿的技术范例,从而在事实上起到了引领国内 AI 技术标准走向的作用。
UE8M0 的设计哲学,本质上是一种“防御型标准”,其核心驱动力是“解耦”与“可移植性”,旨在对冲地缘政治风险。NVIDIA 的标准将性能与其自有的、高度优化的软硬件生态系统深度“耦合”在一起。中国 AI 产业面临的核心风险在于,这个由外部力量控制的、耦合的生态系统随时可能因制裁而变得无法访问。UE8M0 的设计思路则恰恰相反,它试图将核心的数值表示(FP8 格式)与具体的、多样化的硬件实现进行“解耦”。通过牺牲部分由硬件直接管理的精度(即尾数),并将精度保障的任务更多地交给可跨平台移植的软件层(通过缩放因子)和相对通用的计算单元特性(高精度累加),Deepseek 创造了一个对底层硬件微架构细节不那么敏感的数据格式。这使得其模型能够更容易地在未来可能出现的、来自不同供应商、采用不同技术路线的多种国产芯片上运行。这是一种典型的风险管理策略,它优先考虑的是整个生态系统的生存能力和长期发展的韧性,而非在单一、特定平台上的极致性能表现。
这一举措也标志着中国 AI 产业的一次重大战略转型——从过去的“应用层创新”向“底层标准创新”的深刻转变。长期以来,中国 AI 产业的优势主要体现在海量的数据、丰富的应用场景以及庞大的市场规模,但在底层的核心硬件、操作系统和开发框架上严重依赖以美国为主的外部供应 39。美国的出口管制,虽然在短期内造成了巨大困难,但也成为了倒逼中国进行底层创新的催化剂 37。在所有底层技术中,制定数据格式标准尤为关键。它比制造单一的芯片本身更具战略意义,因为它定义了整个技术生态系统——包括模型、编译器、框架和芯片——相互沟通的“语言”。谁掌握了这门“语言”的定义权,谁就掌握了产业链的话语权和发展方向。UE8M0 的推出,是中国头部 AI 公司首次成功地、系统性地尝试定义这种“语言”,是从被动接受国际标准到主动创造国内标准的历史性转变,是其在通往技术主权的道路上,谋求产业链领导地位的关键一步。
第四章:横向技术与性能对比分析
为了更清晰地理解 NVIDIA E4M3/E5M2 和 Deepseek UE8M0 在技术路线上的根本差异,以及这些差异如何影响其在不同应用场景下的表现,本章将进行一次横向的、多维度的技术与性能对比分析。
4.1 核心参数对比:一张图看懂低精度格式
将各种主流的数值格式并列比较,可以最直观地揭示它们在设计上的核心权衡。下表汇总了从 FP32 到各种低精度格式的关键参数,凸显了它们在动态范围和精度之间的不同取舍。
表格 1:低精度数值格式对比分析
| 格式 (Format) | 总比特数 (Total Bits) | 符号位 (Sign Bits) | 指数位 (Exponent Bits) | 尾数位 (Mantissa Bits) | 动态范围 (Approx. Dynamic Range) | 关键特性与设计目标 (Key Characteristics & Intended Use Case) |
|---|---|---|---|---|---|---|
| FP32 | 32 | 1 | 8 | 23 | 10−38 to 1038 | 传统标准,高精度,用于科学计算和模型训练的基线 1。 |
| FP16 | 16 | 1 | 5 | 10 | 10−5 to 6.5×104 | 精度较高,但动态范围有限,易出现下溢,需要损失缩放 4。 |
| BF16 | 16 | 1 | 8 | 7 | 10−38 to 1038 | 与 FP32 相同的动态范围,精度较低,对大模型训练更稳定 2。 |
| INT8 | 8 | 1 (可选) | 0 | 7 (可选) | -128 to 127 | 定点整数,计算效率极高,动态范围固定,主要用于推理量化 1。 |
| NVIDIA E5M2 | 8 | 1 | 5 | 2 | ±57,344 | 范围优先。动态范围与 FP16 相当,精度低。用于梯度计算 9。 |
| NVIDIA E4M3 | 8 | 1 | 4 | 3 | ±448 | 精度优先。在 FP8 中精度最高,范围有限。用于权重和激活值 9。 |
| Deepseek UE8M0 | 8 | 1 | 7 (推测) | 0 (推测) | 极大 | 极致范围优先。原生精度为零,完全依赖外部缩放和高精度累加。为国产硬件的通用性和可移植性设计 28。 |
这个表格清晰地展示了从 32 位到 8 位的演进过程中,比特是如何被重新分配的。特别是在三种 FP8 格式的对比中:
- E5M2 继承了 BF16 的部分设计思想,通过 5 位指数维持了宽广的动态范围,这对于捕捉训练过程中可能出现极端值的梯度至关重要。
- E4M3 则更像 FP16 的极端压缩版,保留了尽可能多的尾数位以维持精度,适用于数值分布相对稳定的权重和激活值。
- UE8M0 则走向了另一个极端,它完全放弃了格式内部的精度表示,将所有资源都投入到确保最宽广的动态范围上。这种设计的背后逻辑是,只要数值不溢出,精度问题可以通过软件和计算架构来弥补。
4.2 应用场景适用性分析
不同的数值格式在 AI 工作流的不同阶段和处理不同类型的张量时,表现出不同的适用性。
- 训练 vs. 推理:
- 训练过程是一个动态的、对数值稳定性要求极高的过程。梯度的精确计算和累积直接关系到模型能否正确收敛。因此,NVIDIA 的双格式方案(E5M2 用于梯度,E4M3 用于前向)是一种精细化的适配。UE8M0 则试图用一种“一刀切”的、足够鲁棒的格式来应对所有训练阶段的挑战,这可能需要在软件层面付出更多的调优努力。
- 推理过程则相对静态,模型权重是固定的。其核心目标是速度、吞吐量和能效。INT8 在这一领域长期占据主导地位,因为它完全摒弃了浮点运算的复杂性 3。然而,对于一些具有极端异常值的模型(如某些 Transformer 模型),INT8 的固定范围会导致严重的精度下降。在这种情况下,FP8 由于保留了浮点数的“指数”特性,能够更好地处理这些异常值,从而在保持高精度的同时实现接近 INT8 的性能,显示出越来越大的优势 1。
- 权重、激活、梯度:
- 权重(Weights):在训练后期,权重通常会收敛到一个相对稳定且集中的分布。因此,对动态范围的要求不高,但对精度有一定要求。E4M3 是一个很好的选择。
- 激活值(Activations):激活值在网络中逐层传递,经过 ReLU 等非线性函数后,可能会出现少数极端的大值(outliers)。这些异常值对后续层的计算有重要影响。一个动态范围不足的格式可能会将这些值“削平”(clip),导致信息丢失。这是 FP8 相对于 INT8 的一个关键优势,也是 E5M2 和 UE8M0 这类范围优先格式的用武之地。
- 梯度(Gradients):梯度是三者中数值行为最“狂野”的。它们的量级可能在训练过程中发生数量级的变化。因此,对动态范围的要求是第一位的,精度反而是次要的。这正是 NVIDIA 设计 E5M2 的核心原因 9。
UE8M0 作为一个单一格式,试图通过其极大的动态范围来普适性地处理以上所有情况。其逻辑是,只要能确保数值在计算过程中不溢出,精度的损失可以通过外部手段来补偿。这种策略的优点是简化了硬件设计和格式切换的复杂性,提升了通用性;缺点则是在某些对原生精度特别敏感的环节,可能不如 E4M3 这样的专用格式表现得好。
4.3 精度边界:格式选择对模型稳定性和性能的影响
低精度计算的核心挑战始终是:在何种程度上可以牺牲精度而不损害模型的最终性能?这个问题的答案并非一成不变,而是与模型架构、任务类型和所采用的量化策略密切相关。
- 精度损失的风险:量化误差的累积可能导致多种问题,包括梯度消失或爆炸、模型收敛速度变慢、甚至完全不收敛 1。对于一些本身就难以训练或对参数变化非常敏感的模型,低精度带来的额外“噪声”可能是致命的 43。实验表明,虽然 FP8 训练在许多情况下可以成功匹配 16 位格式的最终结果质量 9,但这通常需要精心的调优和强大的软件框架支持。
- 格式间的性能差异:在 FP8 内部,格式的选择也直接影响性能。有研究表明,对于大语言模型,精度更高的 E4M3 在最终任务指标(如 MMLU 准确率)上的表现通常优于范围更广的 E5M2 48。这说明对于 LLM 的关键计算,尾数位的精度比想象中更为重要。
- 解决方案的哲学对比:
- NVIDIA 的方案是一种“精细化管理”的哲学。它承认不同阶段需要不同的数值特性,因此提供了两种专用工具(E4M3/E5M2),并通过一个智能的“工头”(Transformer 引擎)来自动调度它们。这套系统的目标是在其自有的、高度优化的软硬件闭环内,榨取出每一分性能。
- Deepseek 的方案则是一种“鲁棒性优先”的哲学。它提供了一个足够强大的通用工具(UE8M0),这个工具可能不是在每个细分任务上都最优的,但它足够简单、通用,能够确保在各种不同(甚至不那么先进)的硬件平台上都能“活下来”并完成任务。精度的补偿则更多地依赖于上层软件的智慧。
这场关于 FP8 标准的竞争,其核心可以被看作是一场关于“复杂性管理”的哲学之争。使用低精度的根本挑战在于如何有效管理因数值范围和精度急剧降低而引入的各种计算复杂性和不确定性。NVIDIA 的解决方案是将这种复杂性“封装在底层,对用户透明”。它通过高度复杂的硬件(如 Transformer 引擎)和深度优化的专有库,为上层开发者提供了一个看似简单、一键启用的接口。然而,这个“简单”的背后,是极其复杂的、与硬件微架构强绑定的底层实现。这是一种典型的成熟平台提供商的策略,旨在提供极致的、端到端的“黑盒”用户体验。
相比之下,Deepseek 的解决方案则是将复杂性“推向上层,让生态共担”。它提供了一个在硬件层面相对简单、通用的底层数据格式(UE8M0),但相应地,它要求上层的软件生态系统——包括编译器、训练框架和算法本身——承担起更多管理精度的责任,例如通过更精细的动态缩放策略和必须配备的高精度累加器。这是一种新兴生态系统构建者的策略,它需要提供一个更加灵活、更具适应性的“白盒”组件,让生态内的其他参与者(尤其是硬件厂商)能够更容易地接入和兼容。这两种不同的哲学,反映了它们在 AI 产业生态中所处的不同位置和所追求的不同战略目标。
第五章:低精度与 AI 硬件的未来轨迹
8 位浮点数(FP8)远非低精度计算的终点,而仅仅是这场效率革命征途中的一个重要里程碑。随着 AI 模型对算力需求的无尽渴求和硬件技术的不断演进,整个行业正在向更低的精度、更智能的架构和更自动化的软件栈迈进。FP8 标准之争所揭示的技术路线和战略考量,将深刻影响未来 AI 硬件的发展轨迹。
5.1 8 比特之外:探索亚 8 位量化的前沿
对计算效率的极致追求正驱动着研究人员探索 8 比特以下的量化领域,这是一个充满挑战与机遇的前沿地带。
- 更低的浮点精度:NVIDIA 在其最新的 Blackwell 架构中,已经开始原生支持 4 位浮点数(FP4),并将其作为其“微缩放格式”(Microscaling Formats, MX)系列的一部分 11。FP4 将内存占用和计算密度推向了新的极限,但其极低的精度和极窄的动态范围也对数值稳定性和模型收敛性提出了空前的挑战。这要求有更先进的、细粒度到块级别(block-wise)的动态缩放技术,以及更智能的混合精度策略来配合。
- 更低的整数精度:4 位整数(INT4)甚至 2 位整数(INT2)量化也已成为研究热点,尤其是在资源极其受限的边缘设备推理场景中 44。这些技术通过更复杂的量化方案,如非对称量化、分组量化和量化感知训练(Quantization-Aware Training, QAT),努力在极低的比特率下保持模型精度 51。
- 颠覆性方案:一些更激进的研究甚至试图完全摆脱传统的乘加运算。例如,微软研究院提出的 BitNet 方案,其核心思想是将模型权重参数量化为三元值(-1, 0, 1),从而将复杂的浮点矩阵乘法替换为高效的整数加法 53。这类“1.58 比特”网络在保持与全精度模型相当性能的同时,展现了巨大的能效和速度优势。此外,更早期的二值/三值网络(Binary/Ternary Networks)也在特定领域持续探索,它们将计算简化为位级别的逻辑运算(如 XNOR),为实现极致的硬件加速提供了可能 50。
这一趋势表明,未来的 AI 计算将不再局限于几种固定的数据类型,而是会根据模型不同层、不同部分的特定需求,采用一个由多种亚 8 位格式构成的、极其复杂的混合精度矩阵。
5.2 芯片创新:新架构与先进互联的影响
为了高效地支持日益多样化的低精度格式,AI 芯片的设计理念也在发生深刻的变革。未来的硬件创新将聚焦于异构计算和数据流优化。
- 新型计算范式:传统的冯·诺依曼架构中,数据在处理器和内存之间的频繁移动是主要的性能瓶颈和功耗来源,即所谓的“内存墙”。为了克服这一问题,内存计算(Processing-in-Memory, PIM/IMC) 等新范式应运而生 6。PIM 将计算逻辑直接集成到存储单元附近或内部,从而在数据所在地进行处理,极大地减少了数据搬运。这种架构天然适合低精度运算,因为其计算单元可以设计得非常简单和密集。此外,基于**查找表(Look-Up Table, LUT)**的计算架构也显示出巨大潜力 53。通过预先计算好所有可能的低精度输入组合的乘法结果并存入 LUT,可以将耗时的乘法运算替换为快速的查表操作,这在亚 8 位量化场景下尤其高效。
- 异构与专用化:未来的 AI 芯片将不再是单一计算核心的同质化阵列,而是一个高度异构的系统。它可能包含多种专门的计算单元:用于高精度计算的 FP32/FP64 核心、用于主流 AI 任务的 FP16/BF16/FP8 Tensor Cores、用于极致推理效率的 INT4/INT2 单元,甚至还有用于执行位级别运算的专用逻辑。整个芯片将像一个“工具箱”,为 AI 工作流的每个环节提供最优化的硬件工具 57。
- 先进互联技术:随着单芯片算力逼近物理极限,通过高速互联将成千上万个芯片连接成一个超级计算集群,成为提升总算力的主要途径。NVIDIA 的 NVLink 和 InfiniBand 技术是当前的市场领导者。然而,随着数据量的持续增长,电互联的带宽和功耗瓶颈日益凸显。硅光子(Silicon Photonics) 技术被视为未来的解决方案,它使用光代替电作为信号传输介质,能够以更低的功耗提供更高的带宽和更长的传输距离 6。光子互联将彻底打破节点间的数据传输瓶颈,使得更大规模的、跨越多机柜的分布式低精度训练成为可能。
5.3 软件的胜利:编译器和自动化框架的关键作用
硬件的高度异构化和数据格式的爆炸性增长,使得手动为特定模型和硬件编写优化代码变得不切实际。因此,软件栈,特别是编译器和自动化框架,将在未来的 AI 计算中扮演越来越核心的角色。
- 智能编译器:未来的编译器需要具备高度的“硬件感知”能力。它们不仅要能将高级语言(如 Python)编写的模型代码转换为底层硬件指令,还必须能够理解异构硬件的拓扑结构、不同计算单元的性能特性以及各种低精度数据格式的数值影响。基于这些信息,编译器需要自动做出复杂的优化决策,例如:为模型的不同层选择最佳的精度组合、决定数据在不同内存层级间的存放和流动方式(tiling and scheduling)、以及自动生成或选择最优的计算内核(kernel)。
- 自动化框架与数据类型编译器:像 Apache TVM 这样的深度学习编译器框架,通过将计算定义(computation graph)与执行调度(schedule)分离,并利用机器学习方法自动搜索最佳调度参数,为解决这一挑战提供了思路 50。更进一步,像微软研究院提出的
LADDER 这样的“数据类型编译器”概念,则专注于解决新兴低精度数据类型与现有硬件不兼容的问题 53。LADDER 可以在算法所需的任意自定义低精度格式和硬件原生支持的格式之间,自动生成高效的、无损的转换代码,从而极大地解放了算法研究人员,使他们可以自由探索新的量化方案,而不必等待硬件更新 61。
未来的 AI 计算竞争,其优势将越来越多地体现在软件栈的“智能”程度上。谁能提供最高效、最自动化的编译器和框架,能够将高级模型描述无缝地、高效地映射到日益复杂的异构低精度硬件上,谁就将掌握整个生态系统的主导权。
这一系列趋势共同指向一个清晰的未来:AI 计算将进入一个“动态精度”的时代。目前,我们讨论的仍然是几种固定的、预先定义的低精度格式,如 FP16、FP8、INT8。然而,未来的发展方向是数据格式的持续细分和爆炸性增长,FP6、FP4、INT4、INT2 乃至更奇特的格式都将进入实用阶段 11。手动管理这种指数级的复杂性是完全不可能的。因此,决定在计算的某个特定环节使用何种精度的决策权,将逐渐从人类开发者手中转移到智能化的编译器和运行时系统。这些系统将能够根据模型的特定层、特定的张量、甚至张量中的特定数值区域,以及当前的硬件状态(如功耗预算、温度、网络拥塞情况)和应用需求(如延迟、精度要求),动态地、实时地选择最优的数值精度。在这样一个未来里,“精度”将不再是一个静态的数据类型属性,而更像是一个类似于缓存、带宽或计算核心的系统资源,可以被软件动态地、智能地调度和优化,以在多维度的目标(性能、功耗、成本、准确性)之间达成最佳的平衡。
第六章:地缘政治的涟漪:AI 标准之战
FP8 格式的演进与分歧,远不止是技术路线的差异,它已成为全球地缘政治竞争在科技领域最前沿、最深刻的投射。NVIDIA 主导的 E4M3/E5M2 标准与 Deepseek 为国产硬件生态量身打造的 UE8M0 标准之间的对立,是中美两国在人工智能领域争夺技术主导权、构建独立生态系统战略的直接体现。这场“标准之战”的背后,是关于技术脱钩、产业链安全和未来数字世界规则制定权的激烈博弈。
6.1 实践中的技术脱钩:分裂的 FP8 标准与平行的生态系统
NVIDIA 凭借其在全球 AI 训练和推理市场中超过 90% 的份额,使其技术栈——包括其 GPU 架构、CUDA 平台以及现在推广的 FP8 标准——成为了西方乃至全球 AI 世界的事实标准 63。几乎所有主流的开源模型、深度学习框架和 AI 应用,在开发和优化时都优先考虑与 NVIDIA 平台的兼容性。E4M3/E5M2 作为这一庞大生态系统的自然延伸,正在被迅速采纳和巩固。
与此同时,Deepseek 的 UE8M0 格式则明确地服务于一个截然不同的目标:构建一个独立于 NVIDIA、围绕中国国产芯片的 AI 生态系统 28。这一标准的出现,标志着技术脱钩(decoupling)已经从宏观的政策和贸易层面,渗透到了最底层的、定义计算机如何表示和处理数字的数据格式层面。
这种底层标准的分裂,是“数字铁幕”在技术基础上的具体体现 36。其潜在后果是深远的:
- 生态系统的平行化:未来可能会出现两个基本上互不兼容的 AI 硬件和软件生态系统。一个生态系统围绕 NVIDIA 的 GPU 和 E4M3/E5M2 标准构建,另一个则围绕华为昇腾等国产芯片和 UE8M0 标准构建。
- 模型和软件的“方言”化:在一个生态系统中经过精心优化和训练的 AI 模型,可能难以直接在另一个生态系统中高效运行,甚至无法运行。这就像两种不同的编程语言或操作系统,需要复杂的“编译”或“移植”才能互通,而这个过程往往伴随着性能损失和稳定性风险。
- 创新效率的降低:全球的 AI 研究者和开发者可能需要为两个不同的技术栈维护不同的代码分支,这将极大地增加开发和维护成本,减缓创新速度。开源社区将面临碎片化的挑战,全球 AI 发展的整体效率可能会因此受损,形成技术上的“巴别塔”困境。
6.2 中国的全栈博弈:UE8M0 作为 AI 自主之路的关键棋子
UE8M0 的诞生,是中国应对美国技术封锁、系统性构建自主 AI 产业链宏大战略中的关键一环。中国正通过国家主导的产业政策和市场力量的结合,试图在 AI 技术栈的每一个层面实现“自主可控” 37。
- 底层芯片:通过“国家集成电路产业投资基金”(大基金)等工具,大力扶持本土半导体产业,支持华为海思、壁仞科技等公司研发通用 AI 芯片(GPU)和专用加速器(ASIC),以替代 NVIDIA 的产品 37。
- 中层软件:推动华为的昇思(MindSpore)和百度的飞桨(PaddlePaddle)等国产深度学习框架的普及,并开发与 CUDA 竞争的并行计算架构(如华为的 CANN),以构建独立的软件基础 37。
- 上层模型:鼓励和支持像 Deepseek、智谱 AI、月之暗面等本土大模型公司的发展,利用中国庞大的数据和市场优势,在模型能力上追赶世界前沿 37。
尽管在核心硬件上仍然存在瓶颈——例如,据报道华为当前的昇腾 910B 芯片尚不原生支持 FP8,运行 Deepseek 的 FP8 模型需要先转换为 BF16,导致内存需求翻倍 65——但中国公司正在通过创新的软硬件协同方式努力克服这些限制。例如,腾讯等公司已经证明,即便使用性能受限的、符合美国出口管制的 NVIDIA H20 芯片,通过软件层面的深度优化,依然能够训练出世界级的先进大模型 67。这种在逆境中迸发出的算法和工程创新能力,是中国 AI 产业韧性的体现 42。
在这个复杂的全栈博弈中,UE8M0 扮演着至关重要的“粘合剂”和“标准引领者”的角色。它提供了一个通用的技术接口,使得上层的模型创新能够与下层的、尚在发展和迭代中的多种国产硬件创新有效地结合起来。这是中国利用其体制优势和市场规模,自上而下(国家战略引导)和自下而上(企业创新驱动)同时发力,试图在 AI 领域实现“换道超车”的典型策略。
6.3 美国的战略:通过生态霸权与出口管制维持领先
面对中国的追赶,美国的战略同样清晰且多层次,其核心目标是维持在 AI 核心技术上的代差优势。
- 生态霸权(胡萝卜):美国战略的基石,是通过像 NVIDIA 这样的龙头企业,构建一个技术上领先、功能上完善、开发者体验上无与伦比的全球 AI 生态系统 25。通过开放(但受控)的 CUDA 平台、丰富的开源贡献以及对学术界和初创企业的广泛支持,NVIDIA 吸引并锁定了全球绝大多数的 AI 人才和开发者,使其技术栈成为全球创新的默认平台和事实标准 72。NVIDIA 的 FP8 标准,正是这个强大生态系统向更高效计算演进的自然产物,是其吸引全球用户、巩固领导地位的“胡萝卜”。
- 出口管制(大棒):与此同时,美国政府通过商务部的实体清单和严格的出口管制条例,精准地限制中国获取最先进的 AI 芯片(如 H100/B200)、芯片设计软件(EDA)和半导体制造设备(光刻机等) 34。这一策略旨在精确打击中国 AI 产业的“算力”瓶颈,延缓其训练更大、更强模型的能力,从而在战略上“锁喉”,为美国自身的技术发展争取时间窗口。
这是一个典型的“胡萝卜加大棒”组合拳。通过强大的生态系统吸引全世界的盟友和开发者,形成技术和市场的正向循环;同时对唯一的战略竞争对手进行精准的技术封锁,阻止其进入这个循环。这场博弈的焦点在于,中国的自主创新速度,能否赶在美国的技术封锁和生态扩张速度之前,成功建立起一个有足够吸引力和竞争力的替代方案。
6.4 全球影响:分裂世界中的国际合作、供应链与开放标准
中美在 AI 底层标准上的分歧,将对全球科技格局产生连锁反应,影响深远。
- 供应链重构与“选边站队”:全球的硬件制造商、软件开发商和云服务提供商将面临一个日益分裂的市场。他们可能需要投入双倍的研发资源,来适配两个不同的技术生态。欧洲、日本、韩国、印度等国家和地区,作为重要的技术参与者,将面临在地缘政治和商业利益之间做出艰难选择的压力,可能会被迫在两个生态系统之间“选边站队” 36。
- 开放标准的挑战:技术标准原本是促进全球互操作性、降低贸易壁垒的工程工具 73。然而,当标准本身被赋予地缘政治属性后,其开放性和中立性将受到侵蚀。未来的国际标准制定组织(如 IEEE)可能会成为大国博弈的舞台。
- 国际合作的障碍:科研和开源社区的全球合作是推动 AI 快速发展的关键动力。标准的分裂将为这种合作设置无形的障碍。跨国研究项目可能因底层硬件和软件栈的不兼容而难以开展,开源项目可能需要维护复杂的、针对不同标准的代码分支,增加社区的维护负担 36。
这场围绕 AI 硬件标准的竞争,实际上是两种国家发展模式的“代理人战争”。NVIDIA 的标准由市场竞争中脱颖而出的领导者定义,并通过其商业生态系统的自然扩张和网络效应成为事实上的全球标准。这深刻反映了美国以市场和私营企业为创新主体的、自下而上的“市场驱动、赢者通吃”模式 72。与之相对,UE8M0 的诞生则直接源于国家战略安全和产业自主的顶层设计,是在政府产业政策的明确引导下,由国家选定的龙头企业牵头制定,旨在服务于构建一个独立自主的国内生态系统。这体现了中国在关键战略领域采用的、自上而下的“国家引导、自主可控”模式 37。因此,FP8 标准之争的最终走向,不仅将决定未来 AI 计算的技术形态,也将在很大程度上反映这两种不同的科技创新和产业发展哲学在全球范围内的影响力消长。
更重要的是,技术标准本身已经演变为一种强大的地缘政治工具,其战略价值不亚于芯片或算法本身。在 AI 时代,谁定义了标准,谁就定义了技术发展的路径、产业链的利润分配格局以及整个生态系统的话语权 72。美国通过其企业主导的、事实上的标准,向全球输出了其技术堆栈、商业模式乃至价值观。中国则试图通过制定自己的标准,来构建一个独立的、不受外部制约的技术势力范围,并有可能未来将其推广到“一带一路”沿线国家和更广泛的“全球南方”合作伙伴中,作为其数字基础设施外交的一部分。因此,对 FP8 这种看似深奥的底层技术标准的控制权之争,已经无可争议地成为大国科技博弈的核心战场之一。可以预见,未来围绕 AI 安全、数据隐私、伦理准则等更高层次的标准制定,将成为更加激烈、更加公开的地缘政治竞争领域。
结论与战略展望
本报告对 NVIDIA 的 E4M3/E5M2 和 Deepseek 的 UE8M0 这两种 FP8 数据格式的分析表明,我们正在见证的不仅是一场技术标准的演进,更是一场地缘政治驱动下全球 AI 生态系统的深刻变革。这两种标准路径的分歧,是技术效率追求和国家战略安全考量相互交织的必然产物,其影响将远远超出技术本身。
核心发现总结如下:
- 技术路线的哲学对立:NVIDIA 的 E4M3/E5M2 双格式方案是“精细化管理”哲学的极致体现。它通过软硬件的深度耦合,将复杂性封装于底层,为用户提供了一个性能卓越但高度封闭的生态系统。这是一种典型的市场领导者的“进攻型”策略,旨在通过技术壁垒和生态锁定来最大化商业利益和行业主导权。相比之下,Deepseek 的 UE8M0 则是“鲁棒性优先”哲学的产物。它通过一个在硬件上更简单、更通用的格式,将精度管理的复杂性推向上层软件,优先保障了在多样化、尚不成熟的国产硬件上的可移植性和稳定性。这是一种新兴生态构建者的“防御型”策略,旨在对冲地缘政治风险,为实现技术自主奠定基础。
- 标准之争是地缘政治的缩影:FP8 标准的分裂,是中美科技“脱钩”在技术最底层实践的明确信号。它预示着全球 AI 产业可能走向两个平行的、标准各异的生态系统。NVIDIA 的标准巩固了美国在全球 AI 产业链顶端的地位,而 UE8M0 的出现则标志着中国从被动接受标准向主动创造标准的战略转型,是其构建全栈自主 AI 技术体系的关键一步。技术标准本身已从纯粹的工程工具,演变为承载国家意志、影响国际格局的地缘政治工具。
未来展望与趋势研判:
- 低精度计算将持续深化:FP8 之后,业界将向更低的精度(如 FP4、INT4 乃至更低)迈进。这将使得 AI 计算进入一个“动态精度”时代,即由智能编译器和运行时系统根据任务和硬件状态,自动、实时地选择和调度最优的数值精度。软件栈的智能化水平将成为未来竞争的核心。
- 技术“脱钩”趋势将加剧:短期内,由于 NVIDIA 生态系统的巨大惯性和技术领先性,其主导地位难以撼动。然而,长期来看,中国凭借其庞大的国内市场、举国体制的资源调动能力以及在算法和应用层面的快速创新,有可能成功构建一个虽与西方平行、但同样具有强大竞争力的替代生态系统。这种平行的发展格局将成为未来十年全球科技领域的新常态。
- 硬件创新将更加多元化:为了适应低精度和异构计算的需求,未来的 AI 芯片设计将更加多样化,内存计算、光子互联等颠覆性技术将加速成熟。硬件的竞争将从单纯的峰值算力比拼,转向能效、成本和对复杂混合精度工作流的综合支持能力的竞争。
战略建议与启示:
对于全球的政策制定者、投资者和科技企业而言,这场正在上演的标准之战带来了深刻的启示和挑战。关键在于清醒地认识并主动适应这个日益分裂的技术格局:
- 对于政策制定者:必须将技术标准的制定提升到国家战略层面。除了关注芯片制造等“硬”实力,更要投入资源支持本国企业和研究机构参与乃至主导国际和国内标准的制定。对于非中美国家而言,则需在两个平行的生态系统之间进行战略平衡,避免过度依赖单一技术栈,并通过支持开放标准和开源社区来维持一定的技术自主性。
- 对于投资者:投资决策需要增加地缘政治风险的权重。对 AI 领域的投资,不仅要评估技术本身的优劣,更要评估其所属的技术生态系统和供应链的韧性。中国的自主 AI 产业链,虽然短期内面临挑战,但其巨大的市场潜力和国家意志的支撑,使其成为一个不容忽视的长期投资主题。
- 对于科技企业:必须重新评估全球化战略和供应链风险。开发者和企业需要考虑其产品和模型在不同技术生态中的可移植性。拥抱能够跨平台、硬件无关的软件框架和开发工具,将成为在分裂的技术世界中保持竞争力的关键。
最终,这场围绕 FP8 的标准之战,其胜负将不仅仅取决于技术参数的优劣,更取决于其背后各自生态系统的创新速度、市场采纳广度、开发者社区的活力以及全球影响力的构建。世界正站在一个技术发展的十字路口,前方的道路是走向更深度的分裂,还是在竞争中找到新的合作与共存模式,将由未来几年的技术演进和国际博弈共同决定。
引用的著作
- FP8 vs. FP16: Choosing the Right Precision for Deep Learning - Beam Cloud, 访问时间为 八月 26, 2025, https://www.beam.cloud/blog/fp8-vs-fp16
- Floating-Point Formats and Deep Learning - George Ho, 访问时间为 八月 26, 2025, https://www.georgeho.org/floating-point-deep-learning/
- FP8, BF16, and INT8: How Low-Precision Formats Are Revolutionizing Deep Learning Throughput | by StackGpu | Medium, 访问时间为 八月 26, 2025, https://medium.com/@StackGpu/fp8-bf16-and-int8-how-low-precision-formats-are-revolutionizing-deep-learning-throughput-e6c1f3adabc2
- Floating points in deep learning: Understanding the basics | by Krinal Joshi | Medium, 访问时间为 八月 26, 2025, https://medium.com/@krinaljoshi/floating-points-in-deep-learning-understanding-the-basics-93459f77a266
- Deep Learning with Low Precision by Half-Wave Gaussian Quantization | by Hey Amit, 访问时间为 八月 26, 2025, https://medium.com/@heyamit10/deep-learning-with-low-precision-by-half-wave-gaussian-quantization-b8e5bd1d5d53
- HPC & AI 2025 predictions: efficiency, new paradigms & beyond - E4 Computer Engineering, 访问时间为 八月 26, 2025, https://www.e4company.com/en/2025/01/future-hpc-ai-predictions/
- Floating-point arithmetic for AI inference — hit or miss? | Qualcomm, 访问时间为 八月 26, 2025, https://www.qualcomm.com/news/onq/2023/04/floating-point-arithmetic-for-ai-inference-hit-or-miss
- FP8 for Deep Learning S52166 | GTC Digital Spring 2023 | NVIDIA On-Demand, 访问时间为 八月 26, 2025, https://www.nvidia.com/en-us/on-demand/session/gtcspring23-s52166/
- FP8 Formats for Deep Learning, 访问时间为 八月 26, 2025, https://arxiv.org/pdf/2209.05433
- NVIDIA H100 Tensor Core GPU Architecture - Advanced Clustering Technologies, 访问时间为 八月 26, 2025, https://www.advancedclustering.com/wp-content/uploads/2022/03/gtc22-whitepaper-hopper.pdf
- DeepSeek V3.1 Released: The Intriguing UE8M0 FP8 - 36氪, 访问时间为 八月 26, 2025, https://eu.36kr.com/en/p/3433365413318016
- How does the Hopper architecture's support for FP8 data types impact training times for large language models? - Massed Compute, 访问时间为 八月 26, 2025, https://massedcompute.com/faq-answers/?question=How%20does%20the%20Hopper%20architecture%27s%20support%20for%20FP8%20data%20types%20impact%20training%20times%20for%20large%20language%20models?
- Advances in the Neural Network Quantization: A Comprehensive Review - MDPI, 访问时间为 八月 26, 2025, https://www.mdpi.com/2076-3417/14/17/7445
- DeepSeek AI: Revolutionizing Efficiency, Innovation & Affordability in Next-Gen AI, 访问时间为 八月 26, 2025, https://guptadeepak.com/deepseek-revolutionizing-ai-with-efficiency-innovation-and-affordability/
- The DeepSeek Effect: Rewriting AI Economics Through Algorithmic Efficiency - Medium, 访问时间为 八月 26, 2025, https://medium.com/@aiml_58187/the-deepseek-effect-rewriting-ai-economics-through-algorithmic-efficiency-part-1-46cf9b2e9930
- Lecture 23: Low-Precision Machine Learning - Cornell: Computer Science, 访问时间为 八月 26, 2025, https://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture23.pdf
- What is the difference between FP8_E5M2 and FP8_E4M3FN ? : r/FluxAI - Reddit, 访问时间为 八月 26, 2025, https://www.reddit.com/r/FluxAI/comments/1ej3uga/what_is_the_difference_between_fp8_e5m2_and_fp8/
- Floating-Point 8: An Introduction to Efficient, Lower-Precision AI ..., 访问时间为 八月 26, 2025, https://developer.nvidia.com/blog/floating-point-8-an-introduction-to-efficient-lower-precision-ai-training/
- Using FP8 with Transformer Engine - NVIDIA Documentation, 访问时间为 八月 26, 2025, https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples/fp8_primer.html
- NVIDIA Hopper: H100 and FP8 Support - Lambda, 访问时间为 八月 26, 2025, https://lambda.ai/blog/nvidia-hopper-h100-and-fp8-support
- Hopper (microarchitecture) - Wikipedia, 访问时间为 八月 26, 2025, https://en.wikipedia.org/wiki/Hopper_(microarchitecture)
- H100 Tensor Core GPU - NVIDIA, 访问时间为 八月 26, 2025, https://www.nvidia.com/en-us/data-center/h100/
- The CUDA Ecosystem and AI CHIP WARS - YouTube, 访问时间为 八月 26, 2025, https://www.youtube.com/watch?v=GnwuiK1l_5I
- CUDA Zone - Library of Resources - NVIDIA Developer, 访问时间为 八月 26, 2025, https://developer.nvidia.com/cuda-zone
- NVIDIA's AI Infrastructure Lock-In: Why the GPU Giant is Unstoppable in the Trillion-Dollar AI Era - AInvest, 访问时间为 八月 26, 2025, https://www.ainvest.com/news/nvidia-ai-infrastructure-lock-gpu-giant-unstoppable-trillion-dollar-ai-era-2505/
- NVIDIA: Harnessing Open Innovation to Promote User Lock-in, 访问时间为 八月 26, 2025, https://www.europeanbusinessreview.com/nvidia-harnessing-open-innovation-to-promote-user-lock-in/
- NVIDIA's AI Ecosystem Play: Why Its Developer-Locked, Partner-Fueled Moat Guarantees Dominance - AInvest, 访问时间为 八月 26, 2025, https://www.ainvest.com/news/nvidia-ai-ecosystem-play-developer-locked-partner-fueled-moat-guarantees-dominance-2505/
- DeepSeek's “UE8M0 FP8”: how it impacts scaling of AI models | by Sai Dheeraj Gummadi | Data Science in Your Pocket | Aug, 2025 | Medium, 访问时间为 八月 26, 2025, https://medium.com/data-science-in-your-pocket/deepseeks-ue8m0-fp8-how-it-impacts-scaling-of-ai-models-376d64478719
- deepseek-ai/DeepSeek-V3.1 - Hugging Face, 访问时间为 八月 26, 2025, https://huggingface.co/deepseek-ai/DeepSeek-V3.1
- DeepSeek launches version 3.1 of its AI model with support for Chinese chips, 访问时间为 八月 26, 2025, https://www.redhotcyber.com/en/post/deepseek-launches-version-3-1-of-its-ai-model-with-support-for-chinese-chips/
- DeepSeek has revealed that the next generation of China-made chips is about to be released : r/LocalLLaMA - Reddit, 访问时间为 八月 26, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1mw73uz/deepseek_has_revealed_that_the_next_generation_of/
- DeepSeek's UE8M0 FP8 Optimization and the Rise of China's Self-Sufficient AI Stack, 访问时间为 八月 26, 2025, https://www.ainvest.com/news/deepseek-ue8m0-fp8-optimization-rise-china-sufficient-ai-stack-2508/
- DeepSeek-V3.1 Debuts With Support for China's Domestic Chips - Mexico Business News, 访问时间为 八月 26, 2025, https://mexicobusiness.news/cloudanddata/news/deepseek-v31-debuts-support-chinas-domestic-chips
- Moolenaar Proposes New Framework to Keep China Dependent on AI, Limit Their Advanced Capabilities | Select Committee on the CCP, 访问时间为 八月 26, 2025, https://selectcommitteeontheccp.house.gov/media/press-releases/moolenaar-proposes-new-framework-to-keep-china-dependent-on-ai-limit-their-advanced-capabilities
- Chip Challenge: Goodbye Export Controls - CEPA, 访问时间为 八月 26, 2025, https://cepa.org/article/chip-challenge-goodbye-export-controls/
- AI geopolitics and data centres in the age of technological rivalry, 访问时间为 八月 26, 2025, https://www.weforum.org/stories/2025/07/ai-geopolitics-data-centres-technological-rivalry/
- China's drive toward self-reliance in artificial intelligence: from chips to large language models | Merics, 访问时间为 八月 26, 2025, https://merics.org/en/report/chinas-drive-toward-self-reliance-artificial-intelligence-chips-large-language-models
- China Accelerates AI Chip Independence Drive, Reportedly Aiming 70% Self-Sufficiency by 2027 : r/Economics - Reddit, 访问时间为 八月 26, 2025, https://www.reddit.com/r/Economics/comments/1my462y/china_accelerates_ai_chip_independence_drive/
- Understanding China's AI Strategy | CNAS, 访问时间为 八月 26, 2025, https://www.cnas.org/publications/reports/understanding-chinas-ai-strategy
- deepseek-v3.1 Model by Deepseek-ai - NVIDIA NIM APIs, 访问时间为 八月 26, 2025, https://build.nvidia.com/deepseek-ai/deepseek-v3_1/modelcard
- DeepSeek-V3 Technical Report - arXiv, 访问时间为 八月 26, 2025, https://arxiv.org/html/2412.19437v1
- Full Stack: China's Evolving Industrial Policy for AI - RAND, 访问时间为 八月 26, 2025, https://www.rand.org/pubs/perspectives/PEA4012-1.html
- Why AI Models Fail in Production: Common Issues and How Observability Helps - Pythia, 访问时间为 八月 26, 2025, https://askpythia.ai/blog/why-ai-models-fail-in-production-common-issues-and-how-observability-helps
- AI Precision: The Hidden Cost of Cutting Corners - WWT, 访问时间为 八月 26, 2025, https://www.wwt.com/article/ai-precision-the-hidden-cost-of-cutting-corners
- AI is Not a High-Precision Technology, and This Has Profound Implications for the World of Work | United Nations University, 访问时间为 八月 26, 2025, https://unu.edu/article/ai-not-high-precision-technology-and-has-profound-implications-world-work
- Enhancing interpretability and accuracy of AI models in healthcare: a comprehensive review on challenges and future directions - PubMed Central, 访问时间为 八月 26, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11638409/
- [2209.05433] FP8 Formats for Deep Learning - arXiv, 访问时间为 八月 26, 2025, https://arxiv.org/abs/2209.05433
- An Investigation of FP8 Across Accelerators for LLM Inference - arXiv, 访问时间为 八月 26, 2025, https://arxiv.org/html/2502.01070v1
- NVIDIA Hardware Innovations and Open Source Contributions Are ..., 访问时间为 八月 26, 2025, https://developer.nvidia.com/blog/nvidia-hardware-innovations-and-open-source-contributions-are-shaping-ai/
- Automating Generation of Low Precision Deep Learning Operators - Apache TVM, 访问时间为 八月 26, 2025, https://tvm.apache.org/2018/12/18/lowprecision-conv
- [2402.10787] Squat: Quant Small Language Models on the Edge - arXiv, 访问时间为 八月 26, 2025, https://arxiv.org/abs/2402.10787
- A Comprehensive Study on Quantization Techniques for Large Language Models - arXiv, 访问时间为 八月 26, 2025, https://arxiv.org/html/2411.02530v1
- Advances to low-bit quantization enable LLMs on edge devices - Microsoft Research, 访问时间为 八月 26, 2025, https://www.microsoft.com/en-us/research/blog/advances-to-low-bit-quantization-enable-llms-on-edge-devices/
- Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network Accelerator with On-Device Speech Recognition - ISCA Archive, 访问时间为 八月 26, 2025, https://www.isca-archive.org/interspeech_2022/zhen22_interspeech.pdf
- sub-8-bit quantization for on-device speech recognition: a regularization-free approach - Amazon Science, 访问时间为 八月 26, 2025, https://assets.amazon.science/0c/03/41fc077547799c2350ccb3a4ac15/sub-8-bit-quantization-for-on-device-speech-recognition-a-regularization-free-approach.pdf
- [2210.09188] Sub-8-bit quantization for on-device speech recognition: a regularization-free approach - arXiv, 访问时间为 八月 26, 2025, https://arxiv.org/abs/2210.09188
- AI Acceleration/Low-Precision Computing | Chips at Rensselaer, 访问时间为 八月 26, 2025, https://chips.rpi.edu/research/ai-accelerationlow-precision-computing
- The future of AI: trends shaping the next 10 years - IBM, 访问时间为 八月 26, 2025, https://www.ibm.com/think/insights/artificial-intelligence-future
- AI's future hinges on hardware innovation - IMEC, 访问时间为 八月 26, 2025, https://www.imec-int.com/en/articles/ais-future-hinges-hardware-innovation
- Deep Analysis of DeepSeek's AI Hardware Configuration and Storage Architecture: Powering the Next Generation of Large Models - YANSEN, 访问时间为 八月 26, 2025, https://www.yansen-ssd.com/blog/deep-analysis-of-deepseeks-ai-hardware-configuration-and-storage-architecture-powering-the-next-generation-of-large-models
- Ladder: Enabling Efficient Low-Precision Deep Learning Computing through Hardware-aware Tensor Transformation - USENIX, 访问时间为 八月 26, 2025, https://www.usenix.org/system/files/osdi24-wang-lei.pdf
- Current Status and Challenges and Future Trends of Deep Learning-Based Intrusion Detection Models - MDPI, 访问时间为 八月 26, 2025, https://www.mdpi.com/2313-433X/10/10/254
- NVIDIA: From Gaming Pioneer to AI Powerhouse | by ByteBridge | Medium, 访问时间为 八月 26, 2025, https://bytebridge.medium.com/nvidia-from-gaming-pioneer-to-ai-powerhouse-44cd1c7427f8
- How NVIDIA Dominated Artificial Intelligence - HYPERTEK SYSTEMS B.V, 访问时间为 八月 26, 2025, https://www.hypertek.nl/nvidia-and-artificial-intelligence/
- DeepSeek Abandons Huawei AI Chips for NVIDIA After R2 Training Failures, 访问时间为 八月 26, 2025, https://www.patentlyapple.com/2025/08/deepseek-abandons-huawei-ai-chips-for-nvidia-after-r2-training-failures.html
- DeepSeek-V3/R1 671B Deployment Guide: GPU Requirements - RiseUnion, 访问时间为 八月 26, 2025, https://www.theriseunion.com/blog/DeepSeek-V3-R1-671B-GPU-Requirements.html
- Whack-a-Chip: The Futility of Hardware-Centric Export Controls - arXiv, 访问时间为 八月 26, 2025, https://arxiv.org/html/2411.14425v1
- Tencent AI strategy defies US GPU export controls as company claims self-sufficiency, 访问时间为 八月 26, 2025, https://techwireasia.com/2025/08/tencent-ai-dismisses-us-gpu-curbs-chip-self-sufficiency/
- The AI Diffusion Framework: Securing U.S. AI Leadership While Preempting Strategic Drift, 访问时间为 八月 26, 2025, https://www.csis.org/analysis/ai-diffusion-framework-securing-us-ai-leadership-while-preempting-strategic-drift
- China's Generative AI Ecosystem in 2024: Rising Investment and Expectations, 访问时间为 八月 26, 2025, https://www.nbr.org/publication/chinas-generative-ai-ecosystem-in-2024-rising-investment-and-expectations/
- Powering AI Progress: China's Solutions to Global Chip Challenges – Quantilus Innovation, 访问时间为 八月 26, 2025, https://quantilus.com/article/powering-ai-progress-chinas-solutions-to-global-chip-challenges/
- The Defining Rivalry of the 21st Century: AI as the New Geopolitical Battlefield - ETF Trends, 访问时间为 八月 26, 2025, https://www.etftrends.com/model-portfolio-channel/defining-rivalry-21st-century-ai-new-geopolitical-battlefield/
- The Geopolitics of Digital Standards | The Belfer Center for Science and International Affairs, 访问时间为 八月 26, 2025, https://www.belfercenter.org/publication/geopolitics-digital-standards
- Brace for Impact: Facing the AI Revolution and Geopolitical Shifts in a Future Societal Scenario for 2025–2040 - MDPI, 访问时间为 八月 26, 2025, https://www.mdpi.com/2075-4698/14/9/180
- Navigating the Geopolitical Stakes of Artificial Intelligence - Northwestern Engineering, 访问时间为 八月 26, 2025, https://www.mccormick.northwestern.edu/news/articles/2025/02/navigating-the-geopolitical-stakes-of-artificial-intelligence/
- The geopolitics of AI and the rise of digital sovereignty - Brookings Institution, 访问时间为 八月 26, 2025, https://www.brookings.edu/articles/the-geopolitics-of-ai-and-the-rise-of-digital-sovereignty/