AI技術輔助蛋白高效設計,普言生物實現(xiàn)蛋白功能提升10倍以上


中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)   時間:2024-09-05





  日前,廣東普言生物科技有限公司(以下簡稱“普言生物”)榮獲第九屆“創(chuàng)客中國”廣東省中小企業(yè)創(chuàng)新創(chuàng)業(yè)大賽暨第八屆“創(chuàng)客廣東”大賽生物醫(yī)藥與健康領域?qū)n}決賽銅獎;另8月13日,普言生物也獲得2024年第十三屆中國創(chuàng)新創(chuàng)業(yè)大賽(廣東·中山賽區(qū))暨第八屆中山市科技創(chuàng)新創(chuàng)業(yè)大賽決賽三等獎。兩次參賽都位于成長組,普言生物作為成立不足兩年的年輕生物技術公司,與眾多成立數(shù)年的企業(yè)競爭并獲得獎項是對普言生物階段性發(fā)展的認可。


  “普言生物是一家聚焦合成生物學技術創(chuàng)新與工業(yè)化,開發(fā)重組功能蛋白的科技公司。我們在不到2年時間內(nèi)完成10多種功能蛋白的研發(fā)及量產(chǎn),并搭建了中試平臺和生物工廠,我們高效的研發(fā)能力和綠色低耗的產(chǎn)線可以為客戶提供增值服務?!逼昭陨顲EO介紹說。據(jù)報道,普言生物已成功構建了一個以重組功能蛋白矩陣為基礎的研發(fā)與生物制造平臺,開發(fā)了涵蓋多型重組人源化膠原蛋白(I、III、IV、VII、XVII型)、纖連蛋白、彈性蛋白、血清白蛋白、金屬硫蛋白、絲聚蛋白等10余種高性能功能蛋白?!叭斯ぶ悄?AI)技術的持續(xù)投入與應用,使我們在蛋白設計和功效上獲得更多優(yōu)勢?!逼昭陨顲EO說到。


  蛋白質(zhì)是生命的基礎,一般由大于50個、平均200-400個氨基酸排列組合,并折疊成有特定功能、活性的結構。以100個氨基酸組成的蛋白質(zhì)為例,其組合可能性有10的130次方(10^130),遠超宇宙粒子的總數(shù)(10的80次方(10^8))。更重要的是,在特定序列基礎上的蛋白三維結構計算預測更是紛繁復雜。過去,傳統(tǒng)蛋白質(zhì)序列截取與設計嚴重依賴人工篩選,過程極其低效。近幾年,人工智能(AI)技術的發(fā)展賦予蛋白設計更廣泛的應用潛力。這些模型對現(xiàn)有蛋白序列進行深度學習,并通過算法對數(shù)據(jù)及模型持續(xù)優(yōu)化、迭代,挖掘并生成具有特定功能、活性的序列及其與細胞系統(tǒng)的潛在互作關系,極大提升了蛋白設計的效率與產(chǎn)業(yè)化能力。


  “基于AI和蛋白質(zhì)的特點,我們從幾方面實現(xiàn)AI的蛋白質(zhì)設計應用。首先,從各大數(shù)據(jù)中心收集、歸納和分類,構建得到數(shù)據(jù)量達10^5-10^9的蛋白質(zhì)序列、結構、功能、互作網(wǎng)絡等數(shù)據(jù)庫,以及各種特定蛋白質(zhì)(如膠原蛋白)的數(shù)據(jù)庫。我們建立的大規(guī)模、精細化、高精度、高覆蓋的數(shù)據(jù)庫,為AI模型的高效、高質(zhì)量預訓練提供了關鍵基礎。第二,我們根據(jù)開發(fā)需求構建了兩個基本的AI模型:基于卷積神經(jīng)網(wǎng)絡(CNN)的多模態(tài)(multimodal)、多軌(multitrack)深度學習模型,可以有效理解蛋白序列、理化特性與功能的高維內(nèi)在關系,實現(xiàn)對某一特定蛋白進行每天超億級別序列的超精確計算分析;此外,基于transformer的大規(guī)模語言模型,利用10^10級別的超參數(shù)和10^8級別的訓練步驟,并引入對抗網(wǎng)絡以提高其生成效率及準確性,實現(xiàn)對百億級別蛋白數(shù)據(jù)進行計算分析。第三,我們采用更適于生物學的指標,如精確率、召回率、F1分數(shù)、準確率、Matthews相關系數(shù)(MCC)等,提高AI模型訓練的有效性、高效性以及準確性,實現(xiàn)更低的算力獲得更高的算量。第四,基于我們建立的合成生物學技術平臺,實現(xiàn)AI與合成生物學技術融合,可以對計算預測的蛋白質(zhì)進行快速合成、高通量篩選和評估,并形成具有精細注釋的實體數(shù)據(jù),實現(xiàn)對數(shù)據(jù)庫和模型訓練的更新迭代,使AI模型具有強的自我進化能力,從而獲得高活性、高表達量及高穩(wěn)定性的功能蛋白?!逼昭陨顲EO介紹道。


  “目前,模型所預測的蛋白99%以上有活性,而且有一半以上在表達量、活性、穩(wěn)定性等不同屬性上有提高。這極大加速了我們高質(zhì)量蛋白產(chǎn)品的研發(fā),并保持我們產(chǎn)品的創(chuàng)新和安全低耗。以重組人源化膠原蛋白為例,我們通過大規(guī)模語言模型進行百億級別序列篩選,生成的序列經(jīng)過實驗驗證其蛋白功能達到+673%,相比傳統(tǒng)重組膠原蛋白的功能提升約10倍以上。”普言生物CEO進一步補充道。

image.png

圖:數(shù)據(jù)與深度學習輔助蛋白質(zhì)高效設計

普言生物將繼續(xù)致力于人工智能(AI)技術在合成生物領域的應用發(fā)展,推動算法模型與工程進一步融合,并探索更多蛋白設計的可能性與應用場景,從而滿足更廣泛的個性化產(chǎn)業(yè)應用需求,為合成生物產(chǎn)業(yè)挖掘新的價值點。


  轉自:中國網(wǎng)

  【版權及免責聲明】凡本網(wǎng)所屬版權作品,轉載時須獲得授權并注明來源“中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)”,違者本網(wǎng)將保留追究其相關法律責任的權力。凡轉載文章及企業(yè)宣傳資訊,僅代表作者個人觀點,不代表本網(wǎng)觀點和立場。版權事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權所有:中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964