DeepSeek V3.1發(fā)布后,一則官方留言讓整個AI圈都轟動了:
新的架構、下一代國產芯片,總共短短不到20個字,卻蘊含了巨大信息量。
國產芯片企業(yè)股價也跟風上漲,比如寒武紀今日早盤盤中大漲近14%,總市值躍居科創(chuàng)板頭名。
半導體ETF,同樣也是在半天的時間里大漲5.89%。(不知道作為放出消息的DeepSeek背后公司幻方量化,有沒有趁機炒一波【手動狗頭】)
這個UE8M0 FP8到底是個啥?下一代國產芯片,又是指什么?
接踵而來的疑問,擠爆了人們的大腦。
在知乎上,也有不少大神開始邊科普邊分析自己對這件事的理解。
咱抱著學習心態(tài),不妨就從UE8M0 FP8的概念開始說起。
什么是UE8M0 FP8?
“UE8M0 FP8”這個概念,可以拆分成前后兩個部分來解釋,前面的UE8M0,是MXFP8路徑里的“縮放因子”。
MXFP8是Open Compute Project在2023年發(fā)布的《Microscaling (MX) Formats Specification v1.0》里定義的8 bit微縮塊格式。
Open Compute Project是2011年由Facebook(現(xiàn)Meta)聯(lián)合英特爾、Rackspace等發(fā)起的開源硬件協(xié)作計劃,目的是通過共享數(shù)據中心及服務器設計推動行業(yè)效率提升。
其成員陣容相當強大,國外還有微軟、谷歌、亞馬遜、AMD、英偉達等,而國內的阿里、騰訊、百度等也參與其中。
說回MXFP8,它以FP8為基礎建立,F(xiàn)P8是把常規(guī)浮點格式壓縮到8 bit的一種編碼方式。
MXFP8的核心思想是先把張量切成固定長度的“塊”,然后為每個塊單獨指定一個2的整數(shù)次冪作為“縮放因子”,把塊內所有數(shù)一起除以這個系數(shù)后再寫成FP8。
這種塊級(而不是全張量級)的縮放,讓MXFP8既保留了8 bit位寬,又把可用動態(tài)范圍擴展了幾十倍。
△
來源:英偉達技術博客
而這里的“縮放因子”也是包含8個bit,其中包含符號位、指數(shù)位和尾數(shù)位,開發(fā)者可以自行將這8個bit分配給這三種不同的位。
其中符號位只區(qū)分有無,若有則占一個bit,無則不占用,而UE8M0中的U表示的就是無符號(有符號可表示為S或省略不寫)。
E和M則分別表示指數(shù)位和尾數(shù)位分配到的bit數(shù),E8M0指的就是8個bit全都分配給了指數(shù)位。
其他常用的格式還有E4M3、E5M2(縮放引子外的本體部分也常采用這兩種)等,它們均包含符號位,其余7個bit在指數(shù)和尾數(shù)位之間分配。
DeepSeek之前開源的5.6k星標項目FP8 GEMM內核DeepGEMM就已經支持UE8M0,不過這個項目主要是適配英偉達芯片和CUDA生態(tài)。
那么,采用這種全指數(shù)表示縮放因子的方式,有什么好處呢?
首先,由于UE8M0不含尾數(shù)與符號位,處理器在根據縮放因子對數(shù)據進行復原時,只需要乘以對應的2的冪,也就是移動一下指數(shù)位,而不需要浮點乘法、規(guī)格化或舍入邏輯,縮短了時鐘關鍵路徑。
并且UE8M0的動態(tài)范圍覆蓋2^(?127)到2^128,其指數(shù)表可輕松容納這一跨度,為后續(xù)塊縮放提供充足空間。
另外UE8M0還能解決單尺度FP8無法同時顧及大/小值,導致溢出或被壓成0的問題,將UE8M0作為分塊的尺度后,錯誤率曲線從整張曲線下降到一條遠低水平的橫線,在保持8 bit張量精度的同時大幅減少信息損失。
△
來源:英偉達技術博客
UE8M0 FP8的好處我們了解了,現(xiàn)在可以解釋為什么它更適配“下一代國產芯片”了。
大部分已量產的國產AI加速器仍沿用FP16/BF16 + INT8的計算通路,并未集成E4M3/E5M2這類完整的FP8乘加單元。
不過,摩爾線程MUSA 3.1 GPU、芯原VIP9000 NPU等2025 H2首發(fā)的新款國產芯片已經在宣傳資料里列出“原生 FP8”或“Block FP8”支持,并與 DeepSeek、華為等15家廠商聯(lián)合驗證UE8M0格式。
雖然下一代國產芯片雖然已經在為FP8做出準備,但HBM/LPPDDR帶寬仍然與頂尖芯片存在較大差距。
而UE8M0讓一組32個FP8數(shù)據只追加8bit縮放引子,相比傳統(tǒng)的4B(32bit) FP32縮放直接節(jié)省75%的流量,這種空間節(jié)約措施被視作下一代架構的重要優(yōu)化方向。
DeepSeek為哪個國產芯片做了優(yōu)化?
在搞清楚啥是UE8M0 FP8之后,回過神來的網友們又開始紛紛猜測:
DeepSeek這是在說哪一家的國產芯片呢?
在官方有意賣關子的情況下,人們只好首先把目光放在了首批通過“DeepSeek大模型適配”的8家廠商。
△
來源:中國信通院官微
這當中大家看好的“頭號種子選手”當屬寒武紀,市場反應相當直觀——
截至今日10:25,寒武紀盤中大漲近14%,總市值超4940億元,超過中芯國際躍居科創(chuàng)板頭名(實際以最新為準)。
理由也很簡單,該公司旗下的MLU370-S4、思元590及最新690系列芯片均支持FP8計算,在架構設計和低精度計算優(yōu)化上一直相對比較領先。
而基于類似理由,海光、沐曦,中昊芯英甚至包括名單之外的摩爾線程等也都被網友們挨個點名:
海光:其深算三號DCU支持FP8計算,存在進一步優(yōu)化的空間;
沐曦:今年7月發(fā)布的曦云C600,也支持FP8精度計算;
中昊芯英: 其“剎那”TPU AI芯片支持FP8精度;
摩爾線程:作為國內極少數(shù)原生支持FP8的GPU廠商,旗艦產品MTT S5000支持FP8精度計算。
與此同時,一些很有可能“即將上車FP8”的廠商也出現(xiàn)在了一眾盤點名單中。
例如華為昇騰,雖然昇騰910B和910C暫不支持原生FP8,但官方路線圖已經寫明“2025Q4原生FP8”,所以眾人預計或將在2026年推出的910D(可能的命名)很有可能是所謂的“下一代芯片”。
除了以上這些,還有一大串芯片廠商的名字出現(xiàn)在了討論當中,堪稱盛況空前。
雖然猜來猜去沒有最終定論,但不妨礙市場給予熱烈回應。根據最新消息,今日國產芯片概念集體高開,科創(chuàng)50大漲3%創(chuàng)近三年半新高,芯片產業(yè)鏈集體走強。
所以,大家為什么集體狂歡?這些國產芯片一旦支持UE8M0 FP8究竟意味著什么?
綜合當前國內外各方說法來看,一切都可以用一句話來概括:
這代表了國產AI正走向軟硬協(xié)同階段,能夠實質性減少對英偉達、AMD等國外算力的依賴。
這里頭的邏輯也很簡單清晰,正是由于UE8M0 FP8精度格式所具備的上述優(yōu)勢(更小的帶寬、更低的功耗、更高的吞吐),這意味著同樣的硬件今后能跑更大的模型,所以國產芯片的“性價比”被大幅拉高了。
換句話說,這些國產芯片廠商將在競爭中更具優(yōu)勢,因此也就屬于利好了。
從另一方面來看,DeepSeek通過改動精度格式,相當于主動貼合國產芯片的最佳性能點,這種軟硬協(xié)同的模式無疑是把國產芯片們拉進了一個統(tǒng)一的生態(tài)坐標系。
這就像當年的“Wintel聯(lián)盟”一樣——微軟和英特爾通過深度技術綁定,筑起了個人計算機領域的生態(tài)護城河,只不過如今換成了DeepSeek和國產芯片廠商們。
One More Thing
事實上,官方在正文部分提到UE8M0 FP8的只有一句話:
需要注意的是,DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數(shù)精度。
而且位置相當“隱蔽”,藏在了一大段洋洋灑灑的功能更新介紹之后。
要不是官方特意在評論區(qū)補了一句,估計大家還沒啥感覺。
所以你說它這個動作吧,不知道算無意還是刻意為之,總之是相當微妙了(手動狗頭)。
參考鏈接:
[1]https://www.zhihu.com/question/1941891000319580108
[2]https://www.zhihu.com/question/1941882763503473149/answer/1942093625908524069
[3]https://docs.nvidia.com/cuda/nvmath-python/0.3.0/tutorials/notebooks/matmul/04_fp8.html
[4]https://www.ainvest.com/news/deepseek-ue8m0-fp8-optimization-rise-china-sufficient-ai-stack-2508/
下一篇:沒有了