AI真·煉丹:整整14天,無需人類參與


中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2024-07-02





現(xiàn)在制藥這事,人類要靠邊站了。

坐標(biāo)蘇州,這是一個(gè)1600平的制藥實(shí)驗(yàn)室,它的“打開方式”是這樣的:

門口,沒有人。

走廊,沒有人。

實(shí)驗(yàn)室,也沒有人。

相比以往充斥著科學(xué)家、研究員的實(shí)驗(yàn)室,它更多的是把機(jī)械臂和AI系統(tǒng)塞了進(jìn)去,主打的就是一個(gè)全自動(dòng)化

或許好奇的小伙伴就要問,這樣的實(shí)驗(yàn)室能干嘛?就是為了自動(dòng)化而自動(dòng)化嘛?

事情當(dāng)然沒有那么簡單,你瞧見的只是無人的操作,但在背后,AI做的可遠(yuǎn)遠(yuǎn)不只是替代人工的實(shí)驗(yàn)室操作那么簡單,而是:

>14天內(nèi)完成靶點(diǎn)發(fā)現(xiàn)和驗(yàn)證,還是全自動(dòng)化干濕實(shí)驗(yàn)閉環(huán)的那種。

要知道,這個(gè)過程要放以前,可是需要足足2-3年才能完成……

而且更為精細(xì)化的工作,例如樣本處理、細(xì)胞培養(yǎng)、化合物管理、高通量篩選、新一代測序高內(nèi)涵成像等等,不論是單一任務(wù)還是“聯(lián)動(dòng)”任務(wù),機(jī)器都可以在AI的控制下輕松接手。

用Echo 650T制備檢測板

用NovaSeq 6000測序

這便是來自全球AI制藥第一梯隊(duì)的“選手”——英矽智能(Insilico Medicine)的第六代智能機(jī)器人實(shí)驗(yàn)室,也是全球首個(gè)用AI參與決策的生物學(xué)實(shí)驗(yàn)室。

而在它背后驅(qū)動(dòng)這一切的AI大腦,則是一個(gè)叫做PandaOmics的平臺(tái),可以根據(jù)實(shí)驗(yàn)的進(jìn)程自主做決策、下達(dá)指令。

若是把這個(gè)AI平臺(tái)單拎出來,它更是囊括了20多種預(yù)測模型和生成生物學(xué)模型,還包含遺傳學(xué)、蛋白質(zhì)組學(xué)、甲基化數(shù)據(jù)、文本文獻(xiàn)和科研基金等海量數(shù)據(jù),用以支持專業(yè)的靶點(diǎn)識(shí)別、分析和排序、適應(yīng)癥探索等生物學(xué)研究。

甚至已經(jīng)有高中生用PandaOmics發(fā)現(xiàn)了藥物新靶點(diǎn),并且研究成果還登上了國際學(xué)術(shù)期刊!

而且除了PandaOmics之外,英矽智能在人工智能制藥領(lǐng)域擁有端到端的藥物發(fā)現(xiàn)平臺(tái)Pharma.AI,其中專注于化學(xué)領(lǐng)域的Chemistry42還可以針對(duì)給定靶點(diǎn)從頭設(shè)計(jì)具有特定屬性藥物理化性質(zhì)的新型小分子。

這一切都可以在幾小時(shí)內(nèi)到幾十小時(shí)內(nèi)完成,且支持并行運(yùn)行多個(gè)任務(wù)。

以及英矽智能還將科技圈最潮的大模型也融入進(jìn)來,在Pharma.AI的架構(gòu)上推出Copilot系統(tǒng),讓你只要會(huì)對(duì)話就能使用專業(yè)的AI制藥平臺(tái)。

由此可見,現(xiàn)在AI不僅是把制藥這件事變成了“自動(dòng)駕駛”模式,更是狠狠地把門檻打下去效率提上來。

AI制藥的流程和工作是方便了,但隨之而來的一個(gè)問題便是:如此大的工作量,算力,又是如何解決的呢?

科學(xué)計(jì)算與AI,CPU都在發(fā)力

對(duì)于上述的問題,包括英矽智能、晶泰科技等AI制藥的頭部力量們不約而同地選擇了相似的解決辦法:

充分利用所有可以用、值得用的科學(xué)計(jì)算與AI算力平臺(tái)。這種平臺(tái)可不是你想象的那樣被GPU制霸,相反,其中的CPU用量更大,尤其是英特爾的CPU。

為什么要選擇英特爾?

首要的一個(gè)原因,就是英特爾供企業(yè)計(jì)算及科學(xué)計(jì)算使用的主力CPU,即至強(qiáng)? 可擴(kuò)展處理器系列產(chǎn)品,一直都是物理計(jì)算——無論是昔日計(jì)算機(jī)輔助制藥,還是今天AI輔助制藥都非常依賴的科學(xué)計(jì)算應(yīng)用的關(guān)鍵承載平臺(tái)。

另一方面,就算是把應(yīng)用的主題從相對(duì)傳統(tǒng)的制藥相關(guān)的科學(xué)計(jì)算任務(wù),切換到更偏AI的應(yīng)用上,英特爾也算是頗有建樹,這一點(diǎn)從它以AlphaFold2為代表的開源蛋白質(zhì)預(yù)測模型的支持上就可見一斑。

AlphaFold2基本架構(gòu)

首先,AlphaFold2整個(gè)端到端的處理過程,涉及?量復(fù)雜多樣的計(jì)算類型。從早期的數(shù)據(jù)收集、特征提取等預(yù)處理階段,到基于深度學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)預(yù)測,再到后續(xù)的結(jié)果分析,這是?個(gè)高度異構(gòu)的工作負(fù)載。

而英特爾?至強(qiáng)? 可擴(kuò)展處理器可以輕松勝任這一系列多樣化的任務(wù)。以至強(qiáng)? CPU Max系列處理器為例,它采用全新微架構(gòu)、更多內(nèi)核(最高達(dá)56個(gè)),能以更高頻率和更大緩存,去應(yīng)對(duì)?通量的預(yù)處理和后處理工作。

它在內(nèi)存和輸入/輸出(I/O)子系統(tǒng)性能上有著顯著的增強(qiáng),還結(jié)合大容量末級(jí)緩存使AlphaFold2推理過程中關(guān)鍵的張量吞吐獲得了大幅提升。

英特爾? 至強(qiáng)? CPU Max 系列處理器

其次,由于AlphaFold2所采用的深度學(xué)習(xí)模型規(guī)模巨大,推理過程中的張量運(yùn)算不僅量大,且維度極高。這就要求承載平臺(tái)具備強(qiáng)?的AI運(yùn)算加速能力。

在這?點(diǎn)上,新款至強(qiáng)? 系列處理器內(nèi)置的英特爾? AMX(?級(jí)矩陣擴(kuò)展)技術(shù),可以顯著加速大規(guī)模矩陣乘法運(yùn)算。

在FP32/BF16混合精度計(jì)算下,其理論峰值可達(dá)每時(shí)鐘周期1024次乘加操作。針對(duì)AlphaFold2推理任務(wù)中所需的大量矩陣運(yùn)算操作,AMX_BF16能在保持較高精度的同時(shí),提高計(jì)算速度并減少存儲(chǔ)空間。

AMX_BF16推理優(yōu)化帶來更低內(nèi)存占用和更大輸入長度

另一方面,AlphaFold2因其高維張量運(yùn)算和長序列并行計(jì)算,在推理過程中常?臨超?內(nèi)存需求,不光影響推理速度,還會(huì)限制更長蛋白質(zhì)序列的預(yù)測。

為此英特爾從軟硬協(xié)同的方式給出完整解決方案。

一面是提升內(nèi)存容量和帶寬。解決方案中,英特爾? 至強(qiáng)? CPU Max系列處理器除支持DDR5內(nèi)存外,還集成了HBM(?帶寬內(nèi)存)。單顆處理器的HBM容量?達(dá)64GB,且具有高達(dá)460GB/s帶寬。

另一面是提供了多種降低內(nèi)存的軟件優(yōu)化方法。如面向PyTorch對(duì)張量計(jì)算原語(Tensor Processing Primitives,TPP)技術(shù)進(jìn)行擴(kuò)展,以及切分Attention模塊和算子融合的推理優(yōu)化方案,幫助AlphaFold2在通用矩陣乘法計(jì)算中所需的內(nèi)存峰值大幅降低。

熱點(diǎn)算子與融合效果

經(jīng)過一系列加強(qiáng)和優(yōu)化后,最終效果如何呢?

如圖所示,在基于至強(qiáng)? CPU Max系列處理器的優(yōu)化流程中,每個(gè)優(yōu)化步驟獲得的提升累積后,獲得了相對(duì)于基線性能(對(duì)比組1,基于第三代至強(qiáng)? 可擴(kuò)展處理器,未實(shí)施優(yōu)化)高達(dá)33.97倍的通量提升。

根據(jù)測算,性能提升中的74%源自預(yù)處理階段的高通量優(yōu)化,26%要?dú)w功于對(duì)推理過程的優(yōu)化。

此外,在同樣開啟IPEX(面向PyTorch的英特爾? 擴(kuò)展優(yōu)化框架)的情況下,相比對(duì)比組2(基于第三代至強(qiáng)? 可擴(kuò)展處理器,但實(shí)施過優(yōu)化),方案在升級(jí)使用至強(qiáng)? CPU Max 系列處理器后,其內(nèi)置的HBM內(nèi)存、英特爾? AMX的加成,則帶來了48.3%的性能提升。

切分Attention模塊和算子融合的推理優(yōu)化方案

而且值得一提的是,在一項(xiàng)基于某公有云服務(wù)的測試中,基于至強(qiáng)? CPU平臺(tái)構(gòu)建的AlphaFold2解決方案還在性能上獲得了遠(yuǎn)優(yōu)于某高端GPU平臺(tái)的表現(xiàn),同時(shí)也優(yōu)于由CPU+GPU混合構(gòu)建的方案。

這可是一個(gè)非常難得的成績——畢竟過去在很多AI應(yīng)用的測試或?qū)崙?zhàn)中,CPU能有接近或媲美GPU的表現(xiàn)就已經(jīng)算是成功,而AlphaFold2上至強(qiáng)? 平臺(tái)則實(shí)現(xiàn)了性能+蛋白質(zhì)預(yù)測序列長度的全面反超。

現(xiàn)在還剩下最后一個(gè)問題,多個(gè)蛋白結(jié)果的解析模型AlphaFold2 Multimer。

也就是從預(yù)測單個(gè)蛋白質(zhì)三維結(jié)構(gòu),發(fā)展到了對(duì)多個(gè)蛋白質(zhì)分子之間的相互作用及所形成的復(fù)合體結(jié)構(gòu)進(jìn)行預(yù)測。

CPU在這一演變過程中的支持力度如何呢?

答案是不用擔(dān)心!基于英特爾? 架構(gòu)的AlphaFold2解決方案同樣也面向AlphaFold2 Multimer的管線結(jié)構(gòu)進(jìn)行了優(yōu)化與驗(yàn)證,雖然后者的管線結(jié)構(gòu)已根據(jù)蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測的需求進(jìn)行了調(diào)整,但英特爾AlphaFold2上的優(yōu)化方案,在被用于AlphaFold2 Multimer時(shí)同樣有效。

面向AlphaFold2 Multimer模式的方案實(shí)現(xiàn)

CPU加速新藥發(fā)現(xiàn)不是夢(mèng)

回顧以往,研發(fā)?種新藥動(dòng)輒需要10年時(shí)間,投入20億美元才能起步。

而在AI的助力下,這?成本正大幅降低。以英矽智能為例,它們進(jìn)展最快的項(xiàng)目僅用18個(gè)月就找到了治療特發(fā)性肺纖維化(IPF)的潛在全球首創(chuàng)候選藥物并通過實(shí)驗(yàn)驗(yàn)證,總成本約為280萬美元。

展望未來,隨著AI技術(shù)的進(jìn)?步發(fā)展?jié)B透,它必將重塑制藥業(yè)的創(chuàng)新模式,讓新藥研發(fā)變得更加高效、精準(zhǔn)、經(jīng)濟(jì)。而在這?進(jìn)程中,相關(guān)的科學(xué)計(jì)算及AI應(yīng)用任務(wù),依然需要有強(qiáng)大的算力支撐。

從英矽智能、晶泰科技等實(shí)踐來看,以至強(qiáng)?處理器為代表的CPU平臺(tái),正憑借其在性能、成本、生態(tài)等方面的獨(dú)特優(yōu)勢,成為推動(dòng)AI時(shí)代制藥創(chuàng)新的重要“引擎”。

這也預(yù)示著,CPU加速AI應(yīng)用落地,幫助用戶節(jié)支增效以及推進(jìn)其技術(shù)和業(yè)務(wù)創(chuàng)新的腳步從未停止。

AI讓新藥研發(fā)進(jìn)入“自動(dòng)駕駛”模式,而英特爾?至強(qiáng)?處理器則提供了它所需的源源不斷的動(dòng)?。

在這種合作模式下,AI+制藥還將擦出怎樣的火花,就很值得期待了。

為了科普CPU在AI推理新時(shí)代的玩法,量子位開設(shè)了《最“in”AI》專欄,將從技術(shù)科普、行業(yè)案例、實(shí)戰(zhàn)優(yōu)化等多個(gè)角度全面解讀。

我們希望通過這個(gè)專欄,讓更多的人了解英特爾? 架構(gòu)CPU在AI推理加速,甚至是整個(gè)AI平臺(tái)或全流程加速上的實(shí)踐成果,重點(diǎn)就是如何更好地利用CPU來提升AI,包括大模型應(yīng)用的性能和效率。

未來隨著英特爾AI產(chǎn)品技術(shù)組合的進(jìn)一步擴(kuò)展和豐富,我們還將在這里為大家提供更多產(chǎn)品技術(shù)上的優(yōu)秀用例與方案分享,以及技術(shù)應(yīng)用指南。


  轉(zhuǎn)自:中國網(wǎng)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

上半年汽車工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高 上半年汽車工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點(diǎn)新聞

熱點(diǎn)輿情

?

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964