當(dāng)前,DeepSeek已全面邁入大規(guī)模應(yīng)用階段,推理需求呈現(xiàn)爆發(fā)式增長,高性價比的推理方案炙手可熱。在國家加速構(gòu)建自主創(chuàng)新算力體系的戰(zhàn)略背景下,中國電信攜手華為開展核心技術(shù)攻關(guān),星辰MaaS平臺+昇騰解鎖DeepSeek超強(qiáng)推理能力,完成DeepSeek模型基于昇騰大規(guī)模專家并行(后文簡稱“大EP”)解決方案的驗(yàn)證,以硬核實(shí)力重塑AI推理新標(biāo)桿,以高效率賦能千行百業(yè)!
大規(guī)模專家并行推理(Large-Scale Expert Parallel Inference)是一種針對大規(guī)模深度學(xué)習(xí)模型的高效推理技術(shù),尤其適用于DeepSeek-R1等基于混合專家架構(gòu)的大模型?!皩<摇奔椿旌蠈<襇OE架構(gòu)中的功能性子模型,通過分工協(xié)作實(shí)現(xiàn)高效計算和更強(qiáng)的任務(wù)處理能力。
該推理技術(shù)的核心思想是將模型中的多個“專家”子網(wǎng)絡(luò)分布到不同的AI卡上,降低單卡的計算和內(nèi)存壓力,通過并行計算和動態(tài)路由機(jī)制,實(shí)現(xiàn)高并發(fā)、高吞吐、低時延的推理性能。
在大EP方案實(shí)施過程中,涉及到多專家的協(xié)同和調(diào)度、跨節(jié)點(diǎn)通信等難題:
通信開銷,“網(wǎng)絡(luò)擁堵”
“專家并行化”需要節(jié)點(diǎn)間頻繁通信,但如果專家很多,將造成通信頻次過高,形成類似交通擁堵的資源競爭狀態(tài),大量時間將消耗在通信等待中。
專家分配:負(fù)載失衡
在動態(tài)路由機(jī)制下,數(shù)據(jù)被動態(tài)分配給專家,可能出現(xiàn)“明星專家”被瘋狂投喂任務(wù),而其他專家模塊處于低負(fù)載閑置狀態(tài)。
系統(tǒng)復(fù)雜,協(xié)同瓶頸
在大規(guī)模部署時,跨專家協(xié)作、容錯與資源調(diào)度的協(xié)同管理,成為關(guān)鍵的“工程瓶頸”。
三大核“芯”術(shù) 智算提效破局
若上述難題未得到有效解決,“專家并行化”的潛力將難以充分釋放。為此,亟需通過新的算法優(yōu)化和系統(tǒng)設(shè)計,以降低通信成本、實(shí)現(xiàn)智能負(fù)載均衡,并構(gòu)建更魯棒的分布式訓(xùn)練框架。中國電信聯(lián)合昇騰利用三大黑科技,讓智算資源效率大大提升:
PD分離(預(yù)填充和解碼分離)
PD分離技術(shù)作為一種創(chuàng)新的架構(gòu)設(shè)計,通過將大模型推理過程分解為兩個獨(dú)立的階段,并針對每個階段的特性進(jìn)行專門優(yōu)化,如同將“倉庫與加工車間分開”,能夠有效提升系統(tǒng)資源利用率。
多專家并行優(yōu)化(智能任務(wù)調(diào)度)
“讓專業(yè)的人做專業(yè)的事”,系統(tǒng)將圖像識別、文本理解等不同任務(wù)分配給對應(yīng)領(lǐng)域的專家處理。同時采用親和部署策略,將高頻通信的模塊盡量部署在同一臺物理設(shè)備上,減少通信開銷。實(shí)測表明,資源利用率可提升20%。
融合算子(復(fù)合計算加速技術(shù))
MLAPO(加速算子)將13個小算子融合成一個超級大算子,如同“產(chǎn)線工人升級為全流程操作手”,單次計算的同時能完成多項操作。在DeepSeek模型的量化場景下,該技術(shù)使計算耗時從109微秒縮減為45微秒,計算速度提升70%。
雙場景實(shí)戰(zhàn) 性能飆升四倍
在實(shí)戰(zhàn)環(huán)境中,本次實(shí)驗(yàn)基于星辰MaaS平臺,分別采用傳統(tǒng)混合部署方案和大EP專家并行方案,基于DeepSeek R1進(jìn)行推理性能測試,如下:
在輸入2K、輸出2K場景下
單卡平均端到端吞吐提升3.71倍;適合在線客服、智能問答等高頻短文本交互。
在輸入4K、輸出2K場景下
單卡平均端到端吞吐提升3.53倍;攻克長文檔摘要、代碼生成等企業(yè)級剛需。
經(jīng)過實(shí)測驗(yàn)證,單卡吞吐性能提升近4倍!
多維度應(yīng)用 實(shí)現(xiàn)“算力自由”
在互聯(lián)網(wǎng)、科技行業(yè),大EP方案特別適用于高并發(fā)場景,如智能客服和AI內(nèi)容生成。相比傳統(tǒng)GPU集群,該方案能大幅降低單卡顯存占用,支持更高的用戶請求并發(fā)量,提升響應(yīng)速度與用戶體驗(yàn),同時降低50%以上的硬件成本。
對于金融、要客等對數(shù)據(jù)隱私要求嚴(yán)格的行業(yè),大EP方案支持私有化部署,通過多專家并行技術(shù),可在保持同等推理性能的情況下減少40%的AI卡投入,既滿足國產(chǎn)化要求,又顯著降低硬件投資成本,縮短回報周期。
此外,星辰MaaS平臺提供開箱即用的大EP方案,適用于政務(wù)、農(nóng)業(yè)、文宣等行業(yè),用戶無需自建算力,通過API即可快速集成,實(shí)現(xiàn)零運(yùn)維、按需付費(fèi)的彈性服務(wù),整體成本僅為自建算力的1/3,尤其適合預(yù)算有限但需要高并發(fā)支持的場景。
無論是互聯(lián)網(wǎng)大模型的高并發(fā)推理,還是企業(yè)私有化大模型的服務(wù),大EP方案都能以更低成本、更高效率滿足大規(guī)模推理并發(fā)性能需求。國產(chǎn)智算+自研技術(shù),加速AI推理規(guī)模應(yīng)用,真正實(shí)現(xiàn)“算力自由”!
中國電信星辰MaaS平臺+星辰行業(yè)智能體平臺+DeepSeek+昇騰大EP方案,為企業(yè)客戶提供一站式算力+數(shù)據(jù)+模型+平臺+應(yīng)用端到端解決方案及極致性能推理服務(wù),讓AI應(yīng)用的搭建快速、簡捷,高效。