IT之家 2 月 12 日消息,浪潮信息今日宣布推出元腦 R1 推理服務(wù)器,通過系統(tǒng)創(chuàng)新和軟硬協(xié)同優(yōu)化,單機(jī)即可部署運(yùn)行 DeepSeek R1 671B 模型。
IT之家注:DeepSeek 開源了多版本模型,其中,DeepSeek R1 671B 模型作為全參數(shù)基礎(chǔ)大模型,相比蒸餾模型具有更強(qiáng)的泛化能力、更高的準(zhǔn)確性和更好的上下文理解能力,但也對(duì)系統(tǒng)顯存容量、顯存帶寬、互連帶寬和延遲提出了更高要求:
在 FP8 精度下至少需要約 800GB 顯存承載,F(xiàn)P16 / BF16 精度下需要 1.4TB 以上的顯存空間。
此外,DeepSeek R1 是典型的長思維鏈模型,具有短輸入、長輸出的應(yīng)用特點(diǎn),推理解碼階段依賴更高的顯存帶寬和極低的通信延遲。
元腦 R1 推理服務(wù)器 NF5688G7 原生搭載 FP8 計(jì)算引擎,提供 1128GB HBM3e 顯存,滿足 671B 模型 FP8 精度下不低于 800GB 顯存容量的需求,單機(jī)支持全量模型推理情況下,仍保留充足的 KV 緩存空間,該機(jī)的顯存帶寬可達(dá) 4.8TB/s。
在通信方面,GPU P2P 帶寬達(dá) 900GB/s,基于最新推理框架單機(jī)可支持 20-30 用戶并發(fā)。同時(shí),單臺(tái) NF5688G7 配備 3200Gbps 無損擴(kuò)展網(wǎng)絡(luò),可根據(jù)用戶業(yè)務(wù)需求增長實(shí)現(xiàn)敏捷擴(kuò)展,提供 R1 服務(wù)器集群 Turnkey 解決方案。
元腦 R1 推理服務(wù)器 NF5868G8 是專為大推理模型(Large Reasoning Model)設(shè)計(jì)的高吞吐推理服務(wù)器,業(yè)界首次實(shí)現(xiàn)單機(jī)支持 16 張標(biāo)準(zhǔn) PCIe 雙寬卡,提供最高 1536GB 顯存容量,支持在 FP16 / BF16 精度下單機(jī)部署 DeepSeek 671B 模型。
該機(jī)采用基于 PCIe Fabric 的 16 卡全互連拓?fù)?,任意兩?P2P 通信帶寬可達(dá) 128GB/s,降低通信延遲超 60%。通過軟硬協(xié)同優(yōu)化,相較傳統(tǒng) 2 機(jī) 8 卡 PCIe 機(jī)型,NF5868G8 可將 DeepSeek 671B 模型推理性能提升近 40%,目前已支持多元 AI 加速卡選配。
上一篇:攤牌了!OpenAI:DeepSeek可與ChatGPT媲美 愿在AI領(lǐng)域與中國合作
下一篇:沒有了