近日,國(guó)家級(jí)專精特新重點(diǎn)“小巨人”企業(yè)——廣州萬(wàn)協(xié)通信息技術(shù)股份有限公司(以下簡(jiǎn)稱“萬(wàn)協(xié)通”)的重磅研究成果《基于4bit量化的視頻大模型算力芯片關(guān)鍵技術(shù)研究》,獲工信部直屬權(quán)威期刊《信息技術(shù)與標(biāo)準(zhǔn)化》重點(diǎn)刊載。
這一來(lái)自國(guó)家級(jí)權(quán)威刊物的認(rèn)可,不僅標(biāo)志著萬(wàn)協(xié)通在視頻大模型邊緣計(jì)算領(lǐng)域完成了從理論創(chuàng)新到產(chǎn)業(yè)應(yīng)用的閉環(huán) ,更向業(yè)界揭示了其攻克邊緣算力瓶頸的核心技術(shù)——基于自主可重構(gòu)TPU架構(gòu)的軟硬協(xié)同全棧式創(chuàng)新。
核心引擎:以可重構(gòu)TPU技術(shù)“丈量”大模型量化
在邊緣計(jì)算場(chǎng)景中,如何在資源受限的終端設(shè)備上部署龐大的視頻大模型,是制約AI落地的最大痛點(diǎn)。萬(wàn)協(xié)通之所以能實(shí)現(xiàn)4bit量化技術(shù)的突破,其根基在于底層硬件的獨(dú)特優(yōu)勢(shì)——自主研發(fā)的可重構(gòu)TPU架構(gòu)。
可重構(gòu) TPU 架構(gòu)的研發(fā),首先要攻克 “動(dòng)態(tài)適配” 的技術(shù)難題。傳統(tǒng)芯片架構(gòu)僵化固定,計(jì)算路徑與資源分配無(wú)法靈活調(diào)整,而可重構(gòu) TPU 需要成為具備高度靈活性的 “動(dòng)態(tài)引擎”,這就要求在芯片設(shè)計(jì)階段,既要實(shí)現(xiàn)內(nèi)部異構(gòu) BOU(基礎(chǔ)計(jì)算單元)的模塊化設(shè)計(jì),又要搭建可編程的數(shù)據(jù)通路,確保各單元能夠根據(jù)不同算法需求實(shí)現(xiàn)實(shí)時(shí)重組。這一過(guò)程涉及芯片架構(gòu)設(shè)計(jì)、硬件電路優(yōu)化、底層邏輯編程等多個(gè)細(xì)分領(lǐng)域的深度協(xié)同,對(duì)硬件設(shè)計(jì)的精準(zhǔn)度、兼容性和擴(kuò)展性提出了極致要求,其技術(shù)復(fù)雜度遠(yuǎn)超傳統(tǒng)專用芯片。
其次,要解決 “算力與能耗平衡” 的行業(yè)難題。邊緣設(shè)備對(duì)功耗和體積有著嚴(yán)格限制,可重構(gòu) TPU 架構(gòu)不僅需要提升算力輸出,還要控制能耗,實(shí)現(xiàn)單位能耗下算力密度的最大化。研發(fā)團(tuán)隊(duì)通過(guò)無(wú)數(shù)次的仿真測(cè)試與迭代,優(yōu)化計(jì)算單元的布局、數(shù)據(jù)傳輸?shù)穆窂?,減少不必要的能耗損耗,這一過(guò)程需要突破硬件設(shè)計(jì)與能耗控制之間的矛盾,其研發(fā)周期長(zhǎng)、技術(shù)門檻高,長(zhǎng)期以來(lái)被少數(shù)國(guó)際巨頭掌握核心思路。
不同于傳統(tǒng)僵化的芯片架構(gòu),萬(wàn)協(xié)通的可重構(gòu)TPU不僅是計(jì)算的載體,更是一個(gè)具備高度靈活性的“動(dòng)態(tài)引擎”。針對(duì)大模型中復(fù)雜的算子融合挑戰(zhàn),該架構(gòu)通過(guò)動(dòng)態(tài)重組內(nèi)部異構(gòu)BOU(基礎(chǔ)計(jì)算單元)與可編程數(shù)據(jù)通路,能夠根據(jù)算法需求實(shí)時(shí)調(diào)整計(jì)算資源的分配策略與執(zhí)行路徑。
這種“芯片適應(yīng)算法”的架構(gòu)特性,有效支撐了4bit量化技術(shù)的實(shí)際部署,在保證復(fù)雜模型推理精度的同時(shí),顯著提升了單位能耗下的算力輸出密度 ??梢哉f(shuō),正是可重構(gòu)TPU這一硬件基石,讓邊緣側(cè)的“降本增效”成為了可能,成功打破了視覺(jué)大模型在邊緣設(shè)備上的“算力墻”。

并行引擎:以流水線架構(gòu)“駕馭”量化張量運(yùn)算
應(yīng)對(duì)4bit量化后激增的并行度需求,需要一套高效的“消化系統(tǒng)”。多維度張量運(yùn)算作為視頻大模型的核心計(jì)算環(huán)節(jié),不僅數(shù)據(jù)規(guī)模龐大、維度復(fù)雜(涵蓋空間、時(shí)間、特征等多重維度),且運(yùn)算邏輯存在高度關(guān)聯(lián)性與并行潛力。萬(wàn)協(xié)通基于流水線(pipeline)方式設(shè)計(jì)的數(shù)據(jù)并行處理架構(gòu),精準(zhǔn)把握張量運(yùn)算的并行化特征,通過(guò) “數(shù)據(jù)拆分 - 節(jié)拍調(diào)度 - 并行執(zhí)行 - 結(jié)果聚合” 的全流程優(yōu)化,實(shí)現(xiàn)了計(jì)算效率與資源利用率的雙重提升,為 4bit 量化后的視頻大模型提供了強(qiáng)有力的算力支撐。
這種多維度并行模式,能夠充分適配 4bit 量化后張量數(shù)據(jù)的運(yùn)算特征 —— 量化后的低精度數(shù)據(jù)雖降低了存儲(chǔ)需求,但對(duì)運(yùn)算并行度的要求更高,而流水線架構(gòu)通過(guò)多層級(jí)并行設(shè)計(jì),能夠同步消化海量低精度張量數(shù)據(jù)的運(yùn)算壓力。同時(shí),架構(gòu)可通過(guò)可編程數(shù)據(jù)通路,根據(jù)不同量化模型的運(yùn)算需求,動(dòng)態(tài)調(diào)整流水線的工序數(shù)量、節(jié)拍頻率與 BOU 單元分配策略,實(shí)現(xiàn) “運(yùn)算需求與硬件資源” 的精準(zhǔn)匹配,在保證推理精度不損失的前提下,最大化提升單位能耗下的算力輸出密度。

硬件引擎:以BOU可重構(gòu)“構(gòu)建”動(dòng)態(tài)計(jì)算單元
讓硬件資源像樂(lè)高一樣“隨需而建”,是解鎖算力極致效率的關(guān)鍵。萬(wàn)協(xié)通的 BOU 并非單一功能的運(yùn)算組件,而是具備獨(dú)立運(yùn)算能力、可靈活配置的 “硬件原子”—— 每個(gè) BOU 都集成了基礎(chǔ)張量運(yùn)算、數(shù)據(jù)緩存、邏輯控制等核心功能,且通過(guò)標(biāo)準(zhǔn)化的接口與可編程的數(shù)據(jù)通路相連,形成可自由組合的 “BOU 原子陣列”。
“可重復(fù)構(gòu)建”核心優(yōu)勢(shì)在于針對(duì)不同算法需求、運(yùn)算復(fù)雜度,無(wú)需額外新增專用硬件單元,僅通過(guò)對(duì)現(xiàn)有 BOU 的重復(fù)組合、動(dòng)態(tài)拼接,即可構(gòu)建出適配當(dāng)前任務(wù)的專屬計(jì)算模塊。例如,處理簡(jiǎn)單的矩陣乘法運(yùn)算時(shí),僅需調(diào)用 2-4 個(gè) BOU 組成小型運(yùn)算集群;面對(duì)視頻大模型中復(fù)雜的算子融合(如卷積、池化、激活函數(shù)的協(xié)同運(yùn)算)時(shí),則通過(guò)數(shù)十個(gè)甚至上百個(gè) BOU 的重復(fù)堆疊、分層協(xié)作,形成高強(qiáng)度算力矩陣。這種 “按需組合” 的模式,讓硬件資源擺脫了 “一對(duì)一適配算法” 的僵化束縛,實(shí)現(xiàn)了單一硬件架構(gòu)對(duì)多樣化運(yùn)算需求的覆蓋。研發(fā)團(tuán)隊(duì)通過(guò)定制化指令碼設(shè)計(jì),對(duì) BOU 的調(diào)度順序、運(yùn)算時(shí)序、數(shù)據(jù)交互邏輯進(jìn)行全流程管控。針對(duì)不同運(yùn)算任務(wù)的特征,指令碼會(huì)自動(dòng)規(guī)劃最優(yōu)的 BOU 組合方案與運(yùn)算路徑:例如在處理 4bit 量化后的低精度張量數(shù)據(jù)時(shí),指令碼會(huì)優(yōu)先調(diào)用適配低精度運(yùn)算的 BOU 單元,并優(yōu)化運(yùn)算步驟,減少冗余的精度轉(zhuǎn)換環(huán)節(jié);在多任務(wù)并發(fā)場(chǎng)景中,指令碼通過(guò)分時(shí)復(fù)用策略,讓同一組 BOU 在不同時(shí)間段內(nèi)處理不同任務(wù),避免硬件資源閑置。這種 “任務(wù) - 指令 - 硬件” 的精準(zhǔn)匹配,讓運(yùn)算流程更緊湊、高效,從根源上減少無(wú)效功耗。

作為國(guó)產(chǎn)可重構(gòu)TPU芯片的先行者,萬(wàn)協(xié)通相關(guān)技術(shù)負(fù)責(zé)人表示,4bit量化技術(shù)是實(shí)現(xiàn)AI大規(guī)模商業(yè)化部署“最后一公里”的關(guān)鍵鑰匙,而可重構(gòu)TPU技術(shù)的自主可控則是這把鑰匙的 “安全鎖”。未來(lái),萬(wàn)協(xié)通將繼續(xù)堅(jiān)持核心技術(shù)自主可控,深耕可重構(gòu)TPU與大模型技術(shù)的融合創(chuàng)新,以全棧式創(chuàng)新體系賦能千行百業(yè),為全球智能化浪潮注入強(qiáng)勁的中國(guó)力量。
關(guān)鍵詞:




