當(dāng)前位置首頁 > 新聞 > 產(chǎn)經(jīng)分析 >

人工智能大模型需要怎樣的芯片？

中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時間：2023-03-08

　　AI對話機(jī)器人ChatGPT的走紅，讓“大模型”的熱度從學(xué)術(shù)界、產(chǎn)業(yè)界一路燒到了大眾媒體。信息顯示，ChatGPT是一款由大型語言模型驅(qū)動的聊天機(jī)器人，在它背后起作用的是OpenAI最強(qiáng)大的大型語言模型GPT-3，參數(shù)量高達(dá)1750億。

　　大模型的崛起，也為AI技術(shù)的地基——芯片帶來了重要的商機(jī)與嚴(yán)峻的技術(shù)挑戰(zhàn)。據(jù)Lambda實(shí)驗室測算，如果采用英偉達(dá)V100 GPU和當(dāng)時最便宜的云服務(wù)進(jìn)行計算，GPT-3訓(xùn)練一次需要355個GPU年（一塊GPU運(yùn)行355年的運(yùn)算量）、花費(fèi)460萬美元。大模型需要怎樣的AI芯片，AI芯片企業(yè)又該如何應(yīng)對？帶著這樣的疑問，記者采訪了有關(guān)專家和企業(yè)家。

　　算力需求：對于AI芯片的要求全面拉升

　　4年的時間、1500倍的參數(shù)量提升，大型語言模型展現(xiàn)出強(qiáng)勁的擴(kuò)張態(tài)勢。2018年，OpenAI推出第一代生成式預(yù)訓(xùn)練語言模型GPT-1，擁有1.17億個參數(shù)。2019年推出的GPT-2擁有12億參數(shù)，是GPT-1的10倍多。一年后面世的GPT-3，參數(shù)量達(dá)到1750億個，是GPT-2的100多倍，預(yù)訓(xùn)練數(shù)據(jù)量高達(dá)45TB。ChatGPT正是基于GPT-3.5——一個基于GPT-3的微調(diào)版本。

　　與參數(shù)量一起飆漲的，是大模型的算力需求。燧原科技創(chuàng)始人、董事長兼CEO趙立東向《中國電子報》表示，以ChatGPT為代表的生成式AI模型為了實(shí)現(xiàn)高質(zhì)量的內(nèi)容生成，具備兩大特性：參數(shù)規(guī)模巨大的模型、海量的訓(xùn)練數(shù)據(jù)集。因此，大模型在底層算子支撐、系統(tǒng)架構(gòu)方案、軟件生態(tài)支持方面都和原先的決策式AI模型有著顯著的區(qū)別，需要芯片廠商打造更加領(lǐng)先的系統(tǒng)級軟硬件方案，并在技術(shù)和產(chǎn)品層面打破原有的路線與壁壘。

　　“從算力芯片角度，主要有三方面的需求：一是分布式計算能力，包括數(shù)據(jù)并行、模型并行、流水并行等分布式計算方案，計算效率尤其關(guān)鍵。二是大容量高帶寬的內(nèi)存方案，在每個AI芯片內(nèi)部有效提升數(shù)據(jù)處理能力和算力利用率，結(jié)合HBM以及CXL等新型存儲技術(shù)，進(jìn)一步提升本地存儲能力和算力利用率。三是更高的單芯片計算能力，以降低整體系統(tǒng)復(fù)雜度，并降低TCO成本。”趙立東說。

　　昆侖芯科技負(fù)責(zé)人也向記者表示，伴隨著ChatGPT的迭代，大模型算法對算力的要求不斷提高，而算力的核心就是人工智能芯片?！按竽Ｐ蛯τ嬎愕囊笾饕w現(xiàn)在三個方面，一是算力，二是互聯(lián)，三是成本。大模型的熱潮也將加速AI芯片技術(shù)的創(chuàng)新和進(jìn)步，包括芯片架構(gòu)、算法優(yōu)化、功耗控制等方面的提升。AI芯片公司可以在這些方面進(jìn)行研發(fā)和創(chuàng)新，不斷提高產(chǎn)品競爭力?！?/p>

　　除了在已有的AI芯片路徑持續(xù)迭代調(diào)優(yōu)，獲得更優(yōu)的算力、效率、功耗、成本，大模型強(qiáng)烈的高算力需求，也呼喚芯片電路與架構(gòu)層面的進(jìn)一步創(chuàng)新。北京大學(xué)集成電路學(xué)院研究員賈天宇向《中國電子報》記者指出，大模型技術(shù)的出現(xiàn)和普及，將進(jìn)一步推動AI芯片的發(fā)展，拉升多方應(yīng)用產(chǎn)業(yè)對于AI芯片的需求，對于提升AI芯片的重要性和不可或缺性有著積極的意義。但同時也應(yīng)認(rèn)識到，支持大模型計算的AI芯片算力需求高、設(shè)計復(fù)雜度高，其設(shè)計要求和門檻也隨之提升。

　　“由于傳統(tǒng)芯片技術(shù)發(fā)展的限制，當(dāng)前芯片設(shè)計的電路與架構(gòu)面臨著存算力瓶頸、能效瓶頸、設(shè)計復(fù)雜度瓶頸等多方面挑戰(zhàn)。如何解決算力需求和芯片設(shè)計瓶頸之間的矛盾，還需要多方的創(chuàng)新和技術(shù)進(jìn)展?！辟Z天宇說。

　　技術(shù)路徑：通用與定制的平衡

　　在AI芯片的發(fā)展過程中，通用性和定制化像是兩個互相拉扯的作用力，衍生出一系列的芯片架構(gòu)。其中，GPU和ASIC分別是通用性和定制化的代表架構(gòu)，也有著各自的優(yōu)勢和局限性。

　　“GPU架構(gòu)提供了大量數(shù)據(jù)并行結(jié)構(gòu)，因此能夠提供大量的AI并行計算，適用于AI訓(xùn)練等。ASIC等定制化AI芯片針對特定的應(yīng)用場景進(jìn)行芯片優(yōu)化，能夠取得更高的計算能效，但通用性相對較弱?！辟Z天宇表示。

　　好在，隨著芯片技術(shù)的發(fā)展，通用性與定制化已不再壁壘森嚴(yán)。一方面，英偉達(dá)在GPU架構(gòu)中引入了Tensor Core（張量計算核心），一種專門針對深度學(xué)習(xí)應(yīng)用而設(shè)計的專用ASIC單元，使GPU更加適合深度學(xué)習(xí)。另一方面，定制化芯片也逐步增加了通用計算單元，并引入可編程或部分可編程的架構(gòu)，增強(qiáng)芯片的場景覆蓋能力。

　　“過去被認(rèn)為只具備專用性的ASIC或DSA（領(lǐng)域?qū)Ｓ眉軜?gòu)），現(xiàn)在不僅含有用于AI加速計算的專用單元，還含有與英偉達(dá)GPU中CUDA Core類似的通用計算單元，同樣可以實(shí)現(xiàn)對各種指令的處理。因此，無論是GPU、ASIC，還是DSA架構(gòu)，云端AI芯片企業(yè)在架構(gòu)設(shè)計中需要關(guān)注的是通用和專用計算單元的搭配，以便應(yīng)對AI計算持續(xù)演變帶來的挑戰(zhàn)?！崩鲂究萍枷嚓P(guān)人員向記者表示。

　　“鑒于大模型對于大算力的顯著需求，以及模型訓(xùn)練算子的多樣性，具有大算力、通用性的芯片將是大算力應(yīng)用的首選。在現(xiàn)存的技術(shù)方案中，GPU是能夠提供算力和開發(fā)生態(tài)的選擇。然而，由于GPU的功耗過高，類GPU架構(gòu)的定制化大算力AI芯片也將存在市場，滿足對于芯片計算能效的提升需求?！辟Z天宇指出。

　　而通用與定制的“配比”，要根據(jù)具體場景設(shè)計。昆侖芯科技相關(guān)人員表示，在通用性、易用性和性能之間實(shí)現(xiàn)平衡，需要在實(shí)際設(shè)計中結(jié)合需求。除了單一技術(shù)或者算力指標(biāo)，更要注重產(chǎn)品的綜合競爭力是否均衡。百度的AI應(yīng)用場景，為昆侖芯提供了驗證和調(diào)優(yōu)機(jī)會。就大模型而言，昆侖芯在產(chǎn)品定義上已經(jīng)做了布局，昆侖芯2代AI芯片相較昆侖芯第1代產(chǎn)品大幅優(yōu)化了算力、互聯(lián)和性能，在百度內(nèi)外部的大模型場景中都有落地，昆侖芯在研的下一代產(chǎn)品將為大模型和AIGC等應(yīng)用提供更佳的性能體驗。

　　“硬件和場景是雙輪驅(qū)動的，場景催生新的技術(shù)方案，新的技術(shù)促使場景更好地發(fā)展。大模型作為一個趨勢場景，其需求定義清楚了，設(shè)計和實(shí)現(xiàn)技術(shù)就會水到渠成。”昆侖芯科技相關(guān)人員告訴記者。

　　另外，無論是通用芯片還是定制芯片，抑或是通用、專用計算單元兼而有之，設(shè)計環(huán)節(jié)之后的制造、封裝環(huán)節(jié)，也將作用于AI芯片的性能提升。

　　“無論GPU還是定制化AI芯片路線，Chiplet、3D堆疊等先進(jìn)集成與封裝技術(shù)將成為進(jìn)一步提升大模型計算能力的重要技術(shù)手段，也將在未來AI芯片發(fā)展中起到重要作用?！辟Z天宇表示。

　　國內(nèi)企業(yè)：需進(jìn)一步增強(qiáng)軟件及系統(tǒng)能力

　　雖然ChatGPT還沒有進(jìn)入盈利階段，但英偉達(dá)已經(jīng)成為第一波吃到紅利的企業(yè)。從2023年第一個美股交易日至今（截稿前最后一個交易日2月24日），英偉達(dá)的股價增幅超過60%，為處于下行周期的半導(dǎo)體產(chǎn)業(yè)增添了一絲亮色。在北京時間2月23日凌晨的財報發(fā)布中，英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛表示，從初創(chuàng)公司到大型企業(yè)，對于生成式AI的多功能性與能力的興趣越來越濃厚。英偉達(dá)將幫助客戶從生成式AI和大型語言模型技術(shù)的突破中獲取優(yōu)勢。

　　英偉達(dá)在AI芯片的先發(fā)優(yōu)勢和占比優(yōu)勢，固然有硬件性能的原因，但更關(guān)鍵的是軟件生態(tài)的加持。在21世紀(jì)初，GPU的并行計算能力引起了學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注。但是，開發(fā)者想要調(diào)用英偉達(dá)GPU的計算能力進(jìn)行圖形處理以外的任務(wù)，必須編寫大量的底層語言代碼，這對于習(xí)慣高級語言的程序員極其不便。2006年，英偉達(dá)推出CUDA平臺，支持開發(fā)者用熟悉的高級程序語言進(jìn)行編程，靈活調(diào)用GPU的算力。自此，GPU的使用范圍不再局限于顯卡，而是擴(kuò)展到所有適合并行計算的領(lǐng)域。GPU與CUDA組成的軟硬件系統(tǒng)，形成了英偉達(dá)的產(chǎn)品壁壘。

　　近年來，國內(nèi)AI芯片企業(yè)在架構(gòu)創(chuàng)新、算力性能、平臺方案等領(lǐng)域涌現(xiàn)出一系列成果，但仍然需要在軟件、系統(tǒng)和生態(tài)層面進(jìn)一步向國際領(lǐng)先企業(yè)看齊。趙立東表示，針對大模型對于AI芯片的需求，芯片廠商一方面通過拆解大模型的系統(tǒng)級需求，快速迭代下一代芯片，從底層提升性能和支持效率。另一方面，要基于既有的芯片打造系統(tǒng)級方案，通過軟件升級解決大模型加速遇到的內(nèi)存容量小、通信占比高等核心痛點(diǎn)問題。

　　“要對標(biāo)國際領(lǐng)先的AI芯片廠商，需要在三個層面開發(fā)優(yōu)化：一是芯片升級，在算力、內(nèi)存、微架構(gòu)等層面針對大模型計算做優(yōu)化；二是軟件升級，從傳統(tǒng)的單卡以及以單機(jī)多卡為主的支持能力拓展至萬卡級別大集群支持，有效提供面向大模型支持的分布式計算、混合并行、內(nèi)存優(yōu)化等整體軟件方案；三是系統(tǒng)方案，以AI芯片為核心，結(jié)合計算、存儲、網(wǎng)絡(luò)打造深度優(yōu)化的系統(tǒng)級方案，面向大模型提供極致的性能和成本優(yōu)勢?！壁w立東說。

　　據(jù)介紹，燧原科技已經(jīng)基于千卡訓(xùn)練集群進(jìn)行大模型訓(xùn)練，并將推理產(chǎn)品通過云服務(wù)商，為內(nèi)容生成模型開發(fā)商提供算力支撐。基于系統(tǒng)級大集群大模型，燧原將持續(xù)創(chuàng)新迭代，重點(diǎn)聚焦生態(tài)建設(shè)，滿足應(yīng)用開發(fā)者對AI算力的強(qiáng)勁需求。

　　昆侖芯科技相關(guān)人員也表示，具體到軟件生態(tài)，AI算法和應(yīng)用開發(fā)者在構(gòu)建AI應(yīng)用和業(yè)務(wù)的過程中，需要一套成熟的編程語言，以及完善的軟件工具集來快速迭代開發(fā)任務(wù)。昆侖芯SDK可以提供從底層驅(qū)動環(huán)境到上層模型轉(zhuǎn)換等全棧的軟件工具，已經(jīng)適配百度飛槳、PyTorch、TensorFlow等主流框架和服務(wù)器，逐漸完善生態(tài)建設(shè)。“要實(shí)現(xiàn)像OpenAI的ChatGPT這樣的大規(guī)模深度學(xué)習(xí)模型，需要大量的數(shù)據(jù)和算法優(yōu)化，以及相關(guān)領(lǐng)域的專業(yè)知識。因此，要更好地實(shí)現(xiàn)ChatGPT的商用落地，需要相應(yīng)的技術(shù)團(tuán)隊和研究機(jī)構(gòu)，與AI芯片企業(yè)協(xié)同推進(jìn)。”

　　轉(zhuǎn)自：中國電子報

返回產(chǎn)經(jīng)網(wǎng)首頁 >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個人觀點(diǎn)，不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

上半年汽車工業(yè)多項經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點(diǎn)新聞

熱點(diǎn)輿情

人工智能大模型需要怎樣的芯片？

熱點(diǎn)視頻

熱點(diǎn)新聞

熱點(diǎn)輿情

微信公眾號

人工智能大模型需要怎樣的芯片？