大約 35 億年前,地球從化學(xué)反應中誕生了最初的生命。大自然發(fā)明了 RNA、蛋白質(zhì)和 DNA 這些生命的核心分子,并創(chuàng )造了核糖體這一分子工廠(chǎng),它能根據基因組中的指令合成蛋白質(zhì)。
蛋白質(zhì)是奇妙的動(dòng)態(tài)分子,具有令人難以置信的功能——從驅動(dòng)運動(dòng)的分子引擎,到捕獲光并將其轉化為能量的光合作用機器,構建細胞內部骨架的支架,與環(huán)境相互作用的復雜傳感器,以及運行生命程序和操作系統的信息處理系統等等,蛋白質(zhì)關(guān)乎疾病與健康,許多救命藥物本身就是蛋白質(zhì)。
生物學(xué)是用一種人類(lèi)尚未理解的“語(yǔ)言”所書(shū)寫(xiě)。如果我們能夠學(xué)會(huì )利用生物學(xué)的“語(yǔ)言”來(lái)讀寫(xiě),那么,生物學(xué)將變得可編程,反復試驗將被邏輯取代,費力的實(shí)驗將被模擬所替代。
2024年諾貝爾化學(xué)獎授予了 AI 蛋白質(zhì)設計先驅 David Baker 教授以及 AI 蛋白質(zhì)結構預測工具 AlphaFold 的開(kāi)發(fā)者 Demis Hassabis 和 John Jumpe,他們的研究為我們利用 AI 來(lái)理解、想象和創(chuàng )造蛋白質(zhì)奠定了基礎。
近日,AI 初創(chuàng )公司 EvolutionaryScale 的研究團隊在國際頂尖學(xué)術(shù)期刊 Science 上發(fā)表了題為:Simulating 500 million years of evolution with a language model 的研究論文。論文標題非常簡(jiǎn)單直接,甚至是夸張——用語(yǔ)言模型模擬 5 億年的進(jìn)化。
該研究開(kāi)發(fā)了一種人工智能語(yǔ)言模型——ESM3,ESM3 在思維鏈(Chain of Thought)的提示下生成了一種全新的綠色熒光蛋白——esmGFP,其在進(jìn)化上與天然的綠色熒光蛋白(GFP)差異巨大,與已知的最接近的熒光蛋白只有 58% 的序列同源性,大自然需要 5 億年時(shí)間才能進(jìn)化出這種新型綠色熒光蛋白,也就是說(shuō),ESM3 模擬了 5 億年進(jìn)化,創(chuàng )造了一種新型綠色熒光蛋白。
研究團隊表示,ESM3 是一款向生命科學(xué)領(lǐng)域的前沿人工智能語(yǔ)言模型,也是第一個(gè)同時(shí)對蛋白質(zhì)的序列、結構和功能進(jìn)行推理的生成式人工智能模型,它提升了我們利用生命密碼進(jìn)行編程和創(chuàng )造的能力,讓我們能夠像設計建筑、制造機器和微芯片以及編寫(xiě)計算機程序一樣,從底層原理出發(fā)來(lái)改造生物學(xué)。
2023 年 3 月, Alexander Rives 領(lǐng)導的 Meta 蛋白質(zhì)折疊團隊在 Science 期刊發(fā)表了題為:Evolutionary-scale prediction of atomic-level protein structure with a language model 的研究論文【2】。
該研究開(kāi)發(fā)了一種名為 ESMFold 的蛋白質(zhì)語(yǔ)言模型,能夠快速、準確、大規模預測蛋白質(zhì)結構,僅花費兩周時(shí)間就預測了超過(guò) 6.17 億個(gè)蛋白質(zhì)的結構,這些蛋白質(zhì)來(lái)自細菌、病毒和其他尚未被表征的微生物。
然而,Meta 公司不久后解散了蛋白質(zhì)折疊團隊,Alexander Rives 與團隊成員創(chuàng )立了 EvolutionaryScale,2024 年 6 月,EvolutionaryScale 完成了高達 1.42 億美元的種子輪融資,致力于開(kāi)發(fā) AI 工具以深化對生物學(xué)的理解,進(jìn)而造福人類(lèi)健康和社會(huì )。
這項新研究所展示的 ESM3 模型,訓練自地球上多達數十億的天然蛋白質(zhì),ESM3 也是當今世界上訓練于最高通量 GPU 集群之一的前沿生物學(xué)生成式人工智能模型,它處于參數、算力和數據的最前沿,訓練時(shí)使用了超過(guò) 1×1024 次浮點(diǎn)運算和 980 億參數。
對蛋白質(zhì)的序列、結構和功能進(jìn)行推理
語(yǔ)言模型是基于離散單元或標記進(jìn)行操作的。為了創(chuàng )建一個(gè)能夠對蛋白質(zhì)的三個(gè)基本生物學(xué)特性——序列、結構和功能——進(jìn)行推理的模型,必須將三維結構和功能轉化為離散的字母表,并構建一種將每個(gè)三維結構都寫(xiě)成字母序列的方法。這使得 ESM3 能夠大規模訓練,從而釋放出新興的生成能力。ESM3 的詞匯表在同一個(gè)語(yǔ)言模型中將序列、結構和功能聯(lián)系起來(lái)。
ESM3 是通過(guò)一個(gè)簡(jiǎn)單的目標進(jìn)行訓練的。對于每種蛋白質(zhì),提取其序列、結構和功能,進(jìn)行標記化處理,并部分屏蔽。ESM3 的任務(wù)是利用受自然語(yǔ)言處理模型啟發(fā)的掩碼語(yǔ)言建模目標來(lái)預測掩碼位置。為了完成這項任務(wù),ESM3 必須從進(jìn)化規模的數據中深入理解序列、結構和功能之間的聯(lián)系。當在數十億種蛋白質(zhì)和數百億個(gè)參數的規模上進(jìn)行擴展時(shí),ESM3 學(xué)會(huì )了模擬進(jìn)化(simulate evolution)。
鑒于通過(guò)實(shí)驗確定的結構和功能注釋的蛋白質(zhì)的數量有限,研究團隊通過(guò)添加數億個(gè)合成數據點(diǎn)來(lái)擴充 ESM3 的多模態(tài)訓練數據集,這些合成數據點(diǎn)包括對各種序列的預測結構和功能。
ESM3 是一個(gè)多軌道 Transformer,可以對蛋白質(zhì)序列、結構和功能進(jìn)行聯(lián)合推理
編程生物學(xué)
ESM3 作為一個(gè)生成式模型,它使生物學(xué)可編程,可以根據提示生成新的蛋白質(zhì)。科學(xué)家可以與 ESM3 互動(dòng),引導它進(jìn)行各種應用創(chuàng )造。ESM3 可以通過(guò)從一組完全掩碼的 tokens 開(kāi)始生成蛋白質(zhì),并迭代解掩,直到所有位置都被填充。由于序列、結構和功能都在訓練過(guò)程中被掩碼和預測,ESM3 可以在所有三種模態(tài)中生成。這個(gè)生成過(guò)程也可以由序列、結構和功能的部分或全部規范的任何組合來(lái)指導。
ESM3 的多模態(tài)推理能力使科學(xué)家能夠以前所未有的控制程度產(chǎn)生新的蛋白質(zhì)。例如,可以提示該模型結合結構、序列和功能,為 PETase 的活性位點(diǎn)提出潛在框架,PETase 是一種降解聚對苯二甲酸乙二醇酯(PET)塑料的酶。
規模帶來(lái)的能力涌現
ESM3 在規模擴大時(shí)展現出解決復雜蛋白質(zhì)設計任務(wù)的能力。其中一項任務(wù)是原子協(xié)調,即根據指定氨基酸在序列中相距甚遠但在結構中彼此靠近的原子位置的提示來(lái)設計蛋白質(zhì)。這衡量了模型在結構生成時(shí)達到原子級精度的能力,對于設計功能性蛋白質(zhì)至關(guān)重要。
ESM3 解決這些任務(wù)的能力會(huì )隨著(zhù)規模的擴大而提升,也就是說(shuō),ESM3 解決更難的生成問(wèn)題的能力取決于其規模。
ESM3 進(jìn)一步通過(guò)使用類(lèi)似于在大語(yǔ)言模型(LLM)中應用的人類(lèi)反饋強化學(xué)習(RLHF)的對齊方法進(jìn)行反饋改進(jìn)。ESM3 能夠自我改進(jìn),而非從人類(lèi)那里獲得反饋,它能對自身生成的內容質(zhì)量進(jìn)行評估。來(lái)自實(shí)驗室實(shí)驗或現有實(shí)驗數據的反饋也可用提升其生成能力。
ESM3 模型生成蛋白質(zhì)的能力隨著(zhù)規模的擴大而提升
模擬 5 億年的進(jìn)化過(guò)程
綠色熒光蛋白(GFP)及其熒光蛋白家族,是自然界中最美麗的蛋白質(zhì)之一。下村修、Martin Chalfie 和錢(qián)永健因發(fā)現和應用 GFP 而獲得了 2008 年諾貝爾化學(xué)獎。
GFP 是生物學(xué)中應用最廣泛的工具之一,被譽(yù)為“照亮了生命科學(xué)”。GFP 含有一種熒光發(fā)色團,其能吸收一個(gè)短波長(cháng)的單色光子,捕獲其中部分能量,并以不同顏色、更長(cháng)波長(cháng)的新光子形式釋放其余能量。天然的 GFP 能夠吸收藍光并發(fā)出綠光。
GFP 是一種能自我轉變的蛋白質(zhì),其結構是一個(gè)由 11 條鏈組成的桶狀結構,中間有一條螺旋貫穿其中,在 GFP 折疊完成后,會(huì )自發(fā)地發(fā)生反應。在 GFP 的中心,構成蛋白質(zhì)鏈的原子重新排列成新的結構,形成一個(gè)熒光發(fā)色團。這種機制是獨一無(wú)二的,沒(méi)有其他已知的蛋白質(zhì)能自發(fā)地從自身結構中形成熒光發(fā)色團,這表明即使對大自然來(lái)說(shuō),產(chǎn)生熒光也并非易事。
科學(xué)家們在自然界中發(fā)現了許多 GFP 的變體,并在實(shí)驗室中對這些天然蛋白質(zhì)進(jìn)行了改造,創(chuàng )造出了新的 GFP 變體。最早的人工 GFP 變體是通過(guò)制造少量能增強亮度或改變顏色的基因突變而發(fā)現的。借助更先進(jìn)的實(shí)驗室技術(shù)和機器學(xué)習方法,如今已能夠將這種搜索范圍擴大,從而找到與原始序列差異高達 20% 的 GFP 變體。但大多數功能性 GFP 突變并非來(lái)自蛋白質(zhì)工程,而是通過(guò)探索自然界獲得的。
產(chǎn)生新的熒光蛋白的進(jìn)化過(guò)程需要漫長(cháng)的歲月,在遙遠的過(guò)去,大自然無(wú)意中發(fā)明了第一種熒光蛋白。天然熒光蛋白從遠古時(shí)期的祖先序列歷經(jīng)數億年的演化,才變成了如今的模樣。
基于天然 GFP 核心區域幾個(gè)氨基酸殘基的結構,ESM3 通過(guò)一系列推理生成了新型 GFP 的候選結構。研究團隊在首次實(shí)驗中測試了生成的 96 種 GFP,發(fā)現其中一些會(huì )發(fā)出熒光,包括一種與自然界中的任何蛋白質(zhì)都相去甚遠的蛋白質(zhì)——B8,但其亮度只有天然 GFP 的五十分之一,而且其發(fā)色團成熟需要一周時(shí)間,而不是一天之內,但它在序列空間的一個(gè)未被探索的區域中呈現出功能信號。在 B8 的基礎上進(jìn)行思維鏈推理,ESM3 又生成了一組 96 種蛋白質(zhì),其中有幾個(gè)熒光強度與天然 GFP 相似,最亮的一個(gè)位于 C10 孔中,研究團隊將其命名為——esmGFP。
esmGFP 與自然界中發(fā)現的最接近的熒光蛋白相比存在 96 處突變(在 229 個(gè)氨基酸中,序列相似度為 58%)。通過(guò)類(lèi)似于對自然界中新發(fā)現的蛋白質(zhì)進(jìn)行的分析,研究團隊估計 esmGFP 相當于由進(jìn)化模擬器完成的超過(guò) 5 億年的自然演化。
由ESM3模型生成的新的綠色熒光蛋白——esmGFP
據悉,EvolutionaryScale 公司正在開(kāi)發(fā) ESM3 的專(zhuān)用版本,以解鎖前沿藥物設計領(lǐng)域的應用,助力科學(xué)家創(chuàng )造新型藥物。
EvolutionaryScale 公司表示,相信未來(lái)的人工智能將幫助我們在最基礎的層面上理解生命的復雜系統,做出改變我們對生物學(xué)認知的新發(fā)現,助力我們找到疾病治療方法,并構建一個(gè)更可持續的世界。
參考鏈接:
https://www.science.org/doi/10.1126/science.ads0018
https://www.science.org/doi/10.1126/science.ade2574
https://www.evolutionaryscale.ai/blog/esm3-release
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com