DeepSeek一句話讓國(guó)產(chǎn)芯片集體暴漲！背后的UE8M0 FP8到底是個(gè)啥

量子位

2025-08-22 17:29:23

DeepSeek V3.1發(fā)布后，一則官方留言讓整個(gè)AI圈都轟動(dòng)了：

新的架構(gòu)、下一代國(guó)產(chǎn)芯片，總共短短不到20個(gè)字，卻蘊(yùn)含了巨大信息量。

國(guó)產(chǎn)芯片企業(yè)股價(jià)也跟風(fēng)上漲，比如寒武紀(jì)今日早盤盤中大漲近14%，總市值躍居科創(chuàng)板頭名。

半導(dǎo)體ETF，同樣也是在半天的時(shí)間里大漲5.89%。（不知道作為放出消息的DeepSeek背后公司幻方量化，有沒(méi)有趁機(jī)炒一波【手動(dòng)狗頭】）

這個(gè)UE8M0 FP8到底是個(gè)啥？下一代國(guó)產(chǎn)芯片，又是指什么？

接踵而來(lái)的疑問(wèn)，擠爆了人們的大腦。

在知乎上，也有不少大神開始邊科普邊分析自己對(duì)這件事的理解。

咱抱著學(xué)習(xí)心態(tài)，不妨就從UE8M0 FP8的概念開始說(shuō)起。

什么是UE8M0 FP8？

“UE8M0 FP8”這個(gè)概念，可以拆分成前后兩個(gè)部分來(lái)解釋，前面的UE8M0，是MXFP8路徑里的“縮放因子”。

MXFP8是Open Compute Project在2023年發(fā)布的《Microscaling (MX) Formats Specification v1.0》里定義的8 bit微縮塊格式。

Open Compute Project是2011年由Facebook（現(xiàn)Meta）聯(lián)合英特爾、Rackspace等發(fā)起的開源硬件協(xié)作計(jì)劃，目的是通過(guò)共享數(shù)據(jù)中心及服務(wù)器設(shè)計(jì)推動(dòng)行業(yè)效率提升。

其成員陣容相當(dāng)強(qiáng)大，國(guó)外還有微軟、谷歌、亞馬遜、AMD、英偉達(dá)等，而國(guó)內(nèi)的阿里、騰訊、百度等也參與其中。

說(shuō)回MXFP8，它以FP8為基礎(chǔ)建立，F(xiàn)P8是把常規(guī)浮點(diǎn)格式壓縮到8 bit的一種編碼方式。

MXFP8的核心思想是先把張量切成固定長(zhǎng)度的“塊”，然后為每個(gè)塊單獨(dú)指定一個(gè)2的整數(shù)次冪作為“縮放因子”，把塊內(nèi)所有數(shù)一起除以這個(gè)系數(shù)后再寫成FP8。

這種塊級(jí)（而不是全張量級(jí)）的縮放，讓MXFP8既保留了8 bit位寬，又把可用動(dòng)態(tài)范圍擴(kuò)展了幾十倍。

△

來(lái)源：英偉達(dá)技術(shù)博客

而這里的“縮放因子”也是包含8個(gè)bit，其中包含符號(hào)位、指數(shù)位和尾數(shù)位，開發(fā)者可以自行將這8個(gè)bit分配給這三種不同的位。

其中符號(hào)位只區(qū)分有無(wú)，若有則占一個(gè)bit，無(wú)則不占用，而UE8M0中的U表示的就是無(wú)符號(hào)（有符號(hào)可表示為S或省略不寫）。

E和M則分別表示指數(shù)位和尾數(shù)位分配到的bit數(shù)，E8M0指的就是8個(gè)bit全都分配給了指數(shù)位。

其他常用的格式還有E4M3、E5M2（縮放引子外的本體部分也常采用這兩種）等，它們均包含符號(hào)位，其余7個(gè)bit在指數(shù)和尾數(shù)位之間分配。

DeepSeek之前開源的5.6k星標(biāo)項(xiàng)目FP8 GEMM內(nèi)核DeepGEMM就已經(jīng)支持UE8M0，不過(guò)這個(gè)項(xiàng)目主要是適配英偉達(dá)芯片和CUDA生態(tài)。

那么，采用這種全指數(shù)表示縮放因子的方式，有什么好處呢？

首先，由于UE8M0不含尾數(shù)與符號(hào)位，處理器在根據(jù)縮放因子對(duì)數(shù)據(jù)進(jìn)行復(fù)原時(shí)，只需要乘以對(duì)應(yīng)的2的冪，也就是移動(dòng)一下指數(shù)位，而不需要浮點(diǎn)乘法、規(guī)格化或舍入邏輯，縮短了時(shí)鐘關(guān)鍵路徑。

并且UE8M0的動(dòng)態(tài)范圍覆蓋2^(?127)到2^128，其指數(shù)表可輕松容納這一跨度，為后續(xù)塊縮放提供充足空間。

另外UE8M0還能解決單尺度FP8無(wú)法同時(shí)顧及大/小值，導(dǎo)致溢出或被壓成0的問(wèn)題，將UE8M0作為分塊的尺度后，錯(cuò)誤率曲線從整張曲線下降到一條遠(yuǎn)低水平的橫線，在保持8 bit張量精度的同時(shí)大幅減少信息損失。

△

來(lái)源：英偉達(dá)技術(shù)博客

UE8M0 FP8的好處我們了解了，現(xiàn)在可以解釋為什么它更適配“下一代國(guó)產(chǎn)芯片”了。

大部分已量產(chǎn)的國(guó)產(chǎn)AI加速器仍沿用FP16/BF16 + INT8的計(jì)算通路，并未集成E4M3/E5M2這類完整的FP8乘加單元。

不過(guò)，摩爾線程MUSA 3.1 GPU、芯原VIP9000 NPU等2025 H2首發(fā)的新款國(guó)產(chǎn)芯片已經(jīng)在宣傳資料里列出“原生 FP8”或“Block FP8”支持，并與 DeepSeek、華為等15家廠商聯(lián)合驗(yàn)證UE8M0格式。

雖然下一代國(guó)產(chǎn)芯片雖然已經(jīng)在為FP8做出準(zhǔn)備，但HBM/LPPDDR帶寬仍然與頂尖芯片存在較大差距。

而UE8M0讓一組32個(gè)FP8數(shù)據(jù)只追加8bit縮放引子，相比傳統(tǒng)的4B（32bit） FP32縮放直接節(jié)省75%的流量，這種空間節(jié)約措施被視作下一代架構(gòu)的重要優(yōu)化方向。

DeepSeek為哪個(gè)國(guó)產(chǎn)芯片做了優(yōu)化？

在搞清楚啥是UE8M0 FP8之后，回過(guò)神來(lái)的網(wǎng)友們又開始紛紛猜測(cè)：

DeepSeek這是在說(shuō)哪一家的國(guó)產(chǎn)芯片呢？

在官方有意賣關(guān)子的情況下，人們只好首先把目光放在了首批通過(guò)“DeepSeek大模型適配”的8家廠商。

△

來(lái)源：中國(guó)信通院官微

這當(dāng)中大家看好的“頭號(hào)種子選手”當(dāng)屬寒武紀(jì)，市場(chǎng)反應(yīng)相當(dāng)直觀——

截至今日10:25，寒武紀(jì)盤中大漲近14%，總市值超4940億元，超過(guò)中芯國(guó)際躍居科創(chuàng)板頭名（實(shí)際以最新為準(zhǔn)）。

理由也很簡(jiǎn)單，該公司旗下的MLU370-S4、思元590及最新690系列芯片均支持FP8計(jì)算，在架構(gòu)設(shè)計(jì)和低精度計(jì)算優(yōu)化上一直相對(duì)比較領(lǐng)先。

而基于類似理由，海光、沐曦，中昊芯英甚至包括名單之外的摩爾線程等也都被網(wǎng)友們挨個(gè)點(diǎn)名：

海光：其深算三號(hào)DCU支持FP8計(jì)算，存在進(jìn)一步優(yōu)化的空間；

沐曦：今年7月發(fā)布的曦云C600，也支持FP8精度計(jì)算；

中昊芯英：其“剎那”TPU AI芯片支持FP8精度；

摩爾線程：作為國(guó)內(nèi)極少數(shù)原生支持FP8的GPU廠商，旗艦產(chǎn)品MTT S5000支持FP8精度計(jì)算。

與此同時(shí)，一些很有可能“即將上車FP8”的廠商也出現(xiàn)在了一眾盤點(diǎn)名單中。

例如華為昇騰，雖然昇騰910B和910C暫不支持原生FP8，但官方路線圖已經(jīng)寫明“2025Q4原生FP8”，所以眾人預(yù)計(jì)或?qū)⒃?026年推出的910D（可能的命名）很有可能是所謂的“下一代芯片”。

除了以上這些，還有一大串芯片廠商的名字出現(xiàn)在了討論當(dāng)中，堪稱盛況空前。

雖然猜來(lái)猜去沒(méi)有最終定論，但不妨礙市場(chǎng)給予熱烈回應(yīng)。根據(jù)最新消息，今日國(guó)產(chǎn)芯片概念集體高開，科創(chuàng)50大漲3%創(chuàng)近三年半新高，芯片產(chǎn)業(yè)鏈集體走強(qiáng)。

所以，大家為什么集體狂歡？這些國(guó)產(chǎn)芯片一旦支持UE8M0 FP8究竟意味著什么？

綜合當(dāng)前國(guó)內(nèi)外各方說(shuō)法來(lái)看，一切都可以用一句話來(lái)概括：

這代表了國(guó)產(chǎn)AI正走向軟硬協(xié)同階段，能夠?qū)嵸|(zhì)性減少對(duì)英偉達(dá)、AMD等國(guó)外算力的依賴。

這里頭的邏輯也很簡(jiǎn)單清晰，正是由于UE8M0 FP8精度格式所具備的上述優(yōu)勢(shì)（更小的帶寬、更低的功耗、更高的吞吐），這意味著同樣的硬件今后能跑更大的模型，所以國(guó)產(chǎn)芯片的“性價(jià)比”被大幅拉高了。

換句話說(shuō)，這些國(guó)產(chǎn)芯片廠商將在競(jìng)爭(zhēng)中更具優(yōu)勢(shì)，因此也就屬于利好了。

從另一方面來(lái)看，DeepSeek通過(guò)改動(dòng)精度格式，相當(dāng)于主動(dòng)貼合國(guó)產(chǎn)芯片的最佳性能點(diǎn)，這種軟硬協(xié)同的模式無(wú)疑是把國(guó)產(chǎn)芯片們拉進(jìn)了一個(gè)統(tǒng)一的生態(tài)坐標(biāo)系。

這就像當(dāng)年的“Wintel聯(lián)盟”一樣——微軟和英特爾通過(guò)深度技術(shù)綁定，筑起了個(gè)人計(jì)算機(jī)領(lǐng)域的生態(tài)護(hù)城河，只不過(guò)如今換成了DeepSeek和國(guó)產(chǎn)芯片廠商們。

One More Thing

事實(shí)上，官方在正文部分提到UE8M0 FP8的只有一句話：

需要注意的是，DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數(shù)精度。

而且位置相當(dāng)“隱蔽”，藏在了一大段洋洋灑灑的功能更新介紹之后。

要不是官方特意在評(píng)論區(qū)補(bǔ)了一句，估計(jì)大家還沒(méi)啥感覺。

所以你說(shuō)它這個(gè)動(dòng)作吧，不知道算無(wú)意還是刻意為之，總之是相當(dāng)微妙了(手動(dòng)狗頭）。

參考鏈接：

[1]https://www.zhihu.com/question/1941891000319580108

[2]https://www.zhihu.com/question/1941882763503473149/answer/1942093625908524069

[3]https://docs.nvidia.com/cuda/nvmath-python/0.3.0/tutorials/notebooks/matmul/04_fp8.html

[4]https://www.ainvest.com/news/deepseek-ue8m0-fp8-optimization-rise-china-sufficient-ai-stack-2508/

上一篇：比亞迪公布車輛漂移控制專利降低了漂移門檻

下一篇： 騰訊的“芯片自信”：不買英偉達(dá)H20背后的AI戰(zhàn)略博弈

青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院