AI對話機(jī)器人ChatGPT的走紅,讓“大模型”的熱度從學(xué)術(shù)界、產(chǎn)業(yè)界一路燒到了大眾媒體。信息顯示,ChatGPT是一款由大型語言模型驅(qū)動的聊天機(jī)器人,在它背后起作用的是OpenAI最強(qiáng)大的大型語言模型GPT-3,參數(shù)量高達(dá)1750億。
大模型的崛起,也為AI技術(shù)的地基——芯片帶來了重要的商機(jī)與嚴(yán)峻的技術(shù)挑戰(zhàn)。據(jù)Lambda實(shí)驗室測算,如果采用英偉達(dá)V100 GPU和當(dāng)時最便宜的云服務(wù)進(jìn)行計算,GPT-3訓(xùn)練一次需要355個GPU年(一塊GPU運(yùn)行355年的運(yùn)算量)、花費(fèi)460萬美元。大模型需要怎樣的AI芯片,AI芯片企業(yè)又該如何應(yīng)對?帶著這樣的疑問,記者采訪了有關(guān)專家和企業(yè)家。
算力需求:對于AI芯片的要求全面拉升
4年的時間、1500倍的參數(shù)量提升,大型語言模型展現(xiàn)出強(qiáng)勁的擴(kuò)張態(tài)勢。2018年,OpenAI推出第一代生成式預(yù)訓(xùn)練語言模型GPT-1,擁有1.17億個參數(shù)。2019年推出的GPT-2擁有12億參數(shù),是GPT-1的10倍多。一年后面世的GPT-3,參數(shù)量達(dá)到1750億個,是GPT-2的100多倍,預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)45TB。ChatGPT正是基于GPT-3.5——一個基于GPT-3的微調(diào)版本。
與參數(shù)量一起飆漲的,是大模型的算力需求。燧原科技創(chuàng)始人、董事長兼CEO趙立東向《中國電子報》表示,以ChatGPT為代表的生成式AI模型為了實(shí)現(xiàn)高質(zhì)量的內(nèi)容生成,具備兩大特性:參數(shù)規(guī)模巨大的模型、海量的訓(xùn)練數(shù)據(jù)集。因此,大模型在底層算子支撐、系統(tǒng)架構(gòu)方案、軟件生態(tài)支持方面都和原先的決策式AI模型有著顯著的區(qū)別,需要芯片廠商打造更加領(lǐng)先的系統(tǒng)級軟硬件方案,并在技術(shù)和產(chǎn)品層面打破原有的路線與壁壘。
“從算力芯片角度,主要有三方面的需求:一是分布式計算能力,包括數(shù)據(jù)并行、模型并行、流水并行等分布式計算方案,計算效率尤其關(guān)鍵。二是大容量高帶寬的內(nèi)存方案,在每個AI芯片內(nèi)部有效提升數(shù)據(jù)處理能力和算力利用率,結(jié)合HBM以及CXL等新型存儲技術(shù),進(jìn)一步提升本地存儲能力和算力利用率。三是更高的單芯片計算能力,以降低整體系統(tǒng)復(fù)雜度,并降低TCO成本。”趙立東說。
昆侖芯科技負(fù)責(zé)人也向記者表示,伴隨著ChatGPT的迭代,大模型算法對算力的要求不斷提高,而算力的核心就是人工智能芯片?!按竽P蛯τ嬎愕囊笾饕w現(xiàn)在三個方面,一是算力,二是互聯(lián),三是成本。大模型的熱潮也將加速AI芯片技術(shù)的創(chuàng)新和進(jìn)步,包括芯片架構(gòu)、算法優(yōu)化、功耗控制等方面的提升。AI芯片公司可以在這些方面進(jìn)行研發(fā)和創(chuàng)新,不斷提高產(chǎn)品競爭力?!?/p>
除了在已有的AI芯片路徑持續(xù)迭代調(diào)優(yōu),獲得更優(yōu)的算力、效率、功耗、成本,大模型強(qiáng)烈的高算力需求,也呼喚芯片電路與架構(gòu)層面的進(jìn)一步創(chuàng)新。北京大學(xué)集成電路學(xué)院研究員賈天宇向《中國電子報》記者指出,大模型技術(shù)的出現(xiàn)和普及,將進(jìn)一步推動AI芯片的發(fā)展,拉升多方應(yīng)用產(chǎn)業(yè)對于AI芯片的需求,對于提升AI芯片的重要性和不可或缺性有著積極的意義。但同時也應(yīng)認(rèn)識到,支持大模型計算的AI芯片算力需求高、設(shè)計復(fù)雜度高,其設(shè)計要求和門檻也隨之提升。
“由于傳統(tǒng)芯片技術(shù)發(fā)展的限制,當(dāng)前芯片設(shè)計的電路與架構(gòu)面臨著存算力瓶頸、能效瓶頸、設(shè)計復(fù)雜度瓶頸等多方面挑戰(zhàn)。如何解決算力需求和芯片設(shè)計瓶頸之間的矛盾,還需要多方的創(chuàng)新和技術(shù)進(jìn)展?!辟Z天宇說。
技術(shù)路徑:通用與定制的平衡
在AI芯片的發(fā)展過程中,通用性和定制化像是兩個互相拉扯的作用力,衍生出一系列的芯片架構(gòu)。其中,GPU和ASIC分別是通用性和定制化的代表架構(gòu),也有著各自的優(yōu)勢和局限性。
“GPU架構(gòu)提供了大量數(shù)據(jù)并行結(jié)構(gòu),因此能夠提供大量的AI并行計算,適用于AI訓(xùn)練等。ASIC等定制化AI芯片針對特定的應(yīng)用場景進(jìn)行芯片優(yōu)化,能夠取得更高的計算能效,但通用性相對較弱?!辟Z天宇表示。
好在,隨著芯片技術(shù)的發(fā)展,通用性與定制化已不再壁壘森嚴(yán)。一方面,英偉達(dá)在GPU架構(gòu)中引入了Tensor Core(張量計算核心),一種專門針對深度學(xué)習(xí)應(yīng)用而設(shè)計的專用ASIC單元,使GPU更加適合深度學(xué)習(xí)。另一方面,定制化芯片也逐步增加了通用計算單元,并引入可編程或部分可編程的架構(gòu),增強(qiáng)芯片的場景覆蓋能力。
“過去被認(rèn)為只具備專用性的ASIC或DSA(領(lǐng)域?qū)S眉軜?gòu)),現(xiàn)在不僅含有用于AI加速計算的專用單元,還含有與英偉達(dá)GPU中CUDA Core類似的通用計算單元,同樣可以實(shí)現(xiàn)對各種指令的處理。因此,無論是GPU、ASIC,還是DSA架構(gòu),云端AI芯片企業(yè)在架構(gòu)設(shè)計中需要關(guān)注的是通用和專用計算單元的搭配,以便應(yīng)對AI計算持續(xù)演變帶來的挑戰(zhàn)?!崩鲂究萍枷嚓P(guān)人員向記者表示。
“鑒于大模型對于大算力的顯著需求,以及模型訓(xùn)練算子的多樣性,具有大算力、通用性的芯片將是大算力應(yīng)用的首選。在現(xiàn)存的技術(shù)方案中,GPU是能夠提供算力和開發(fā)生態(tài)的選擇。然而,由于GPU的功耗過高,類GPU架構(gòu)的定制化大算力AI芯片也將存在市場,滿足對于芯片計算能效的提升需求?!辟Z天宇指出。
而通用與定制的“配比”,要根據(jù)具體場景設(shè)計。昆侖芯科技相關(guān)人員表示,在通用性、易用性和性能之間實(shí)現(xiàn)平衡,需要在實(shí)際設(shè)計中結(jié)合需求。除了單一技術(shù)或者算力指標(biāo),更要注重產(chǎn)品的綜合競爭力是否均衡。百度的AI應(yīng)用場景,為昆侖芯提供了驗證和調(diào)優(yōu)機(jī)會。就大模型而言,昆侖芯在產(chǎn)品定義上已經(jīng)做了布局,昆侖芯2代AI芯片相較昆侖芯第1代產(chǎn)品大幅優(yōu)化了算力、互聯(lián)和性能,在百度內(nèi)外部的大模型場景中都有落地,昆侖芯在研的下一代產(chǎn)品將為大模型和AIGC等應(yīng)用提供更佳的性能體驗。
“硬件和場景是雙輪驅(qū)動的,場景催生新的技術(shù)方案,新的技術(shù)促使場景更好地發(fā)展。大模型作為一個趨勢場景,其需求定義清楚了,設(shè)計和實(shí)現(xiàn)技術(shù)就會水到渠成。”昆侖芯科技相關(guān)人員告訴記者。
另外,無論是通用芯片還是定制芯片,抑或是通用、專用計算單元兼而有之,設(shè)計環(huán)節(jié)之后的制造、封裝環(huán)節(jié),也將作用于AI芯片的性能提升。
“無論GPU還是定制化AI芯片路線,Chiplet、3D堆疊等先進(jìn)集成與封裝技術(shù)將成為進(jìn)一步提升大模型計算能力的重要技術(shù)手段,也將在未來AI芯片發(fā)展中起到重要作用?!辟Z天宇表示。
國內(nèi)企業(yè):需進(jìn)一步增強(qiáng)軟件及系統(tǒng)能力
雖然ChatGPT還沒有進(jìn)入盈利階段,但英偉達(dá)已經(jīng)成為第一波吃到紅利的企業(yè)。從2023年第一個美股交易日至今(截稿前最后一個交易日2月24日),英偉達(dá)的股價增幅超過60%,為處于下行周期的半導(dǎo)體產(chǎn)業(yè)增添了一絲亮色。在北京時間2月23日凌晨的財報發(fā)布中,英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,從初創(chuàng)公司到大型企業(yè),對于生成式AI的多功能性與能力的興趣越來越濃厚。英偉達(dá)將幫助客戶從生成式AI和大型語言模型技術(shù)的突破中獲取優(yōu)勢。
英偉達(dá)在AI芯片的先發(fā)優(yōu)勢和占比優(yōu)勢,固然有硬件性能的原因,但更關(guān)鍵的是軟件生態(tài)的加持。在21世紀(jì)初,GPU的并行計算能力引起了學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注。但是,開發(fā)者想要調(diào)用英偉達(dá)GPU的計算能力進(jìn)行圖形處理以外的任務(wù),必須編寫大量的底層語言代碼,這對于習(xí)慣高級語言的程序員極其不便。2006年,英偉達(dá)推出CUDA平臺,支持開發(fā)者用熟悉的高級程序語言進(jìn)行編程,靈活調(diào)用GPU的算力。自此,GPU的使用范圍不再局限于顯卡,而是擴(kuò)展到所有適合并行計算的領(lǐng)域。GPU與CUDA組成的軟硬件系統(tǒng),形成了英偉達(dá)的產(chǎn)品壁壘。
近年來,國內(nèi)AI芯片企業(yè)在架構(gòu)創(chuàng)新、算力性能、平臺方案等領(lǐng)域涌現(xiàn)出一系列成果,但仍然需要在軟件、系統(tǒng)和生態(tài)層面進(jìn)一步向國際領(lǐng)先企業(yè)看齊。趙立東表示,針對大模型對于AI芯片的需求,芯片廠商一方面通過拆解大模型的系統(tǒng)級需求,快速迭代下一代芯片,從底層提升性能和支持效率。另一方面,要基于既有的芯片打造系統(tǒng)級方案,通過軟件升級解決大模型加速遇到的內(nèi)存容量小、通信占比高等核心痛點(diǎn)問題。
“要對標(biāo)國際領(lǐng)先的AI芯片廠商,需要在三個層面開發(fā)優(yōu)化:一是芯片升級,在算力、內(nèi)存、微架構(gòu)等層面針對大模型計算做優(yōu)化;二是軟件升級,從傳統(tǒng)的單卡以及以單機(jī)多卡為主的支持能力拓展至萬卡級別大集群支持,有效提供面向大模型支持的分布式計算、混合并行、內(nèi)存優(yōu)化等整體軟件方案;三是系統(tǒng)方案,以AI芯片為核心,結(jié)合計算、存儲、網(wǎng)絡(luò)打造深度優(yōu)化的系統(tǒng)級方案,面向大模型提供極致的性能和成本優(yōu)勢?!壁w立東說。
據(jù)介紹,燧原科技已經(jīng)基于千卡訓(xùn)練集群進(jìn)行大模型訓(xùn)練,并將推理產(chǎn)品通過云服務(wù)商,為內(nèi)容生成模型開發(fā)商提供算力支撐。基于系統(tǒng)級大集群大模型,燧原將持續(xù)創(chuàng)新迭代,重點(diǎn)聚焦生態(tài)建設(shè),滿足應(yīng)用開發(fā)者對AI算力的強(qiáng)勁需求。
昆侖芯科技相關(guān)人員也表示,具體到軟件生態(tài),AI算法和應(yīng)用開發(fā)者在構(gòu)建AI應(yīng)用和業(yè)務(wù)的過程中,需要一套成熟的編程語言,以及完善的軟件工具集來快速迭代開發(fā)任務(wù)。昆侖芯SDK可以提供從底層驅(qū)動環(huán)境到上層模型轉(zhuǎn)換等全棧的軟件工具,已經(jīng)適配百度飛槳、PyTorch、TensorFlow等主流框架和服務(wù)器,逐漸完善生態(tài)建設(shè)。“要實(shí)現(xiàn)像OpenAI的ChatGPT這樣的大規(guī)模深度學(xué)習(xí)模型,需要大量的數(shù)據(jù)和算法優(yōu)化,以及相關(guān)領(lǐng)域的專業(yè)知識。因此,要更好地實(shí)現(xiàn)ChatGPT的商用落地,需要相應(yīng)的技術(shù)團(tuán)隊和研究機(jī)構(gòu),與AI芯片企業(yè)協(xié)同推進(jìn)。”
轉(zhuǎn)自:中國電子報
【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65363056。
延伸閱讀