成人国产精品一级毛片视频,毛片三级在线观看,中国黄色在线观看,婷婷久久综合九色综合九七,久久久免费视频观看,国产99在线播放,日本成人福利

產(chǎn)品分類導(dǎo)航
CPHI制藥在線 資訊 Science:用AI模擬5億年的進(jìn)化,創(chuàng)造出全新熒光蛋白,重新點(diǎn)亮生物學(xué)

Science:用AI模擬5億年的進(jìn)化,創(chuàng)造出全新熒光蛋白,重新點(diǎn)亮生物學(xué)

作者:王聰  來(lái)源:生物世界
  2025-02-25
AI 初創(chuàng)公司 EvolutionaryScale 團(tuán)隊(duì)在《Science》發(fā)文,開(kāi)發(fā)人工智能語(yǔ)言模型 ESM3,其在思維鏈提示下模擬 5 億年進(jìn)化生成新型綠色熒光蛋白 esmGFP,還能對(duì)蛋白質(zhì)序列、結(jié)構(gòu)和功能聯(lián)合推理,有望用于藥物設(shè)計(jì)等領(lǐng)域。

大約 35 億年前,地球從化學(xué)反應(yīng)中誕生了最初的生命。大自然發(fā)明了 RNA、蛋白質(zhì)和 DNA 這些生命的核心分子,并創(chuàng)造了核糖體這一分子工廠,它能根據(jù)基因組中的指令合成蛋白質(zhì)。

蛋白質(zhì)是奇妙的動(dòng)態(tài)分子,具有令人難以置信的功能——從驅(qū)動(dòng)運(yùn)動(dòng)的分子引擎,到捕獲光并將其轉(zhuǎn)化為能量的光合作用機(jī)器,構(gòu)建細(xì)胞內(nèi)部骨架的支架,與環(huán)境相互作用的復(fù)雜傳感器,以及運(yùn)行生命程序和操作系統(tǒng)的信息處理系統(tǒng)等等,蛋白質(zhì)關(guān)乎疾病與健康,許多救命藥物本身就是蛋白質(zhì)。

生物學(xué)是用一種人類尚未理解的“語(yǔ)言”所書(shū)寫(xiě)。如果我們能夠?qū)W會(huì)利用生物學(xué)的“語(yǔ)言”來(lái)讀寫(xiě),那么,生物學(xué)將變得可編程,反復(fù)試驗(yàn)將被邏輯取代,費(fèi)力的實(shí)驗(yàn)將被模擬所替代。

2024年諾貝爾化學(xué)獎(jiǎng)授予了 AI 蛋白質(zhì)設(shè)計(jì)先驅(qū) David Baker 教授以及 AI 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具 AlphaFold 的開(kāi)發(fā)者 Demis Hassabis 和 John Jumpe,他們的研究為我們利用 AI 來(lái)理解、想象和創(chuàng)造蛋白質(zhì)奠定了基礎(chǔ)。

近日,AI 初創(chuàng)公司 EvolutionaryScale 的研究團(tuán)隊(duì)在國(guó)際頂尖學(xué)術(shù)期刊 Science 上發(fā)表了題為:Simulating 500 million years of evolution with a language model 的研究論文。論文標(biāo)題非常簡(jiǎn)單直接,甚至是夸張——用語(yǔ)言模型模擬 5 億年的進(jìn)化。

該研究開(kāi)發(fā)了一種人工智能語(yǔ)言模型——ESM3,ESM3 在思維鏈(Chain of Thought)的提示下生成了一種全新的綠色熒光蛋白——esmGFP,其在進(jìn)化上與天然的綠色熒光蛋白(GFP)差異巨大,與已知的最接近的熒光蛋白只有 58% 的序列同源性,大自然需要 5 億年時(shí)間才能進(jìn)化出這種新型綠色熒光蛋白,也就是說(shuō),ESM3 模擬了 5 億年進(jìn)化,創(chuàng)造了一種新型綠色熒光蛋白。

研究團(tuán)隊(duì)表示,ESM3 是一款向生命科學(xué)領(lǐng)域的前沿人工智能語(yǔ)言模型,也是第一個(gè)同時(shí)對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理的生成式人工智能模型,它提升了我們利用生命密碼進(jìn)行編程和創(chuàng)造的能力,讓我們能夠像設(shè)計(jì)建筑、制造機(jī)器和微芯片以及編寫(xiě)計(jì)算機(jī)程序一樣,從底層原理出發(fā)來(lái)改造生物學(xué)。

ESM3

2023 年 3 月, Alexander Rives 領(lǐng)導(dǎo)的 Meta 蛋白質(zhì)折疊團(tuán)隊(duì)在 Science 期刊發(fā)表了題為:Evolutionary-scale prediction of atomic-level protein structure with a language model 的研究論文【2】。

該研究開(kāi)發(fā)了一種名為 ESMFold 的蛋白質(zhì)語(yǔ)言模型,能夠快速、準(zhǔn)確、大規(guī)模預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),僅花費(fèi)兩周時(shí)間就預(yù)測(cè)了超過(guò) 6.17 億個(gè)蛋白質(zhì)的結(jié)構(gòu),這些蛋白質(zhì)來(lái)自細(xì)菌、病毒和其他尚未被表征的微生物。

ESMFold

然而,Meta 公司不久后解散了蛋白質(zhì)折疊團(tuán)隊(duì),Alexander Rives 與團(tuán)隊(duì)成員創(chuàng)立了 EvolutionaryScale,2024 年 6 月,EvolutionaryScale 完成了高達(dá) 1.42 億美元的種子輪融資,致力于開(kāi)發(fā) AI 工具以深化對(duì)生物學(xué)的理解,進(jìn)而造福人類健康和社會(huì)。

EvolutionaryScale

這項(xiàng)新研究所展示的 ESM3 模型,訓(xùn)練自地球上多達(dá)數(shù)十億的天然蛋白質(zhì),ESM3 也是當(dāng)今世界上訓(xùn)練于最高通量 GPU 集群之一的前沿生物學(xué)生成式人工智能模型,它處于參數(shù)、算力和數(shù)據(jù)的最前沿,訓(xùn)練時(shí)使用了超過(guò) 1×1024 次浮點(diǎn)運(yùn)算和 980 億參數(shù)。

對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理

語(yǔ)言模型是基于離散單元或標(biāo)記進(jìn)行操作的。為了創(chuàng)建一個(gè)能夠?qū)Φ鞍踪|(zhì)的三個(gè)基本生物學(xué)特性——序列、結(jié)構(gòu)和功能——進(jìn)行推理的模型,必須將三維結(jié)構(gòu)和功能轉(zhuǎn)化為離散的字母表,并構(gòu)建一種將每個(gè)三維結(jié)構(gòu)都寫(xiě)成字母序列的方法。這使得 ESM3 能夠大規(guī)模訓(xùn)練,從而釋放出新興的生成能力。ESM3 的詞匯表在同一個(gè)語(yǔ)言模型中將序列、結(jié)構(gòu)和功能聯(lián)系起來(lái)。

ESM3 是通過(guò)一個(gè)簡(jiǎn)單的目標(biāo)進(jìn)行訓(xùn)練的。對(duì)于每種蛋白質(zhì),提取其序列、結(jié)構(gòu)和功能,進(jìn)行標(biāo)記化處理,并部分屏蔽。ESM3 的任務(wù)是利用受自然語(yǔ)言處理模型啟發(fā)的掩碼語(yǔ)言建模目標(biāo)來(lái)預(yù)測(cè)掩碼位置。為了完成這項(xiàng)任務(wù),ESM3 必須從進(jìn)化規(guī)模的數(shù)據(jù)中深入理解序列、結(jié)構(gòu)和功能之間的聯(lián)系。當(dāng)在數(shù)十億種蛋白質(zhì)和數(shù)百億個(gè)參數(shù)的規(guī)模上進(jìn)行擴(kuò)展時(shí),ESM3 學(xué)會(huì)了模擬進(jìn)化(simulate evolution)。

鑒于通過(guò)實(shí)驗(yàn)確定的結(jié)構(gòu)和功能注釋的蛋白質(zhì)的數(shù)量有限,研究團(tuán)隊(duì)通過(guò)添加數(shù)億個(gè)合成數(shù)據(jù)點(diǎn)來(lái)擴(kuò)充 ESM3 的多模態(tài)訓(xùn)練數(shù)據(jù)集,這些合成數(shù)據(jù)點(diǎn)包括對(duì)各種序列的預(yù)測(cè)結(jié)構(gòu)和功能。

ESM3

ESM3 是一個(gè)多軌道 Transformer,可以對(duì)蛋白質(zhì)序列、結(jié)構(gòu)和功能進(jìn)行聯(lián)合推理

編程生物學(xué)

ESM3 作為一個(gè)生成式模型,它使生物學(xué)可編程,可以根據(jù)提示生成新的蛋白質(zhì)。科學(xué)家可以與 ESM3 互動(dòng),引導(dǎo)它進(jìn)行各種應(yīng)用創(chuàng)造。ESM3 可以通過(guò)從一組完全掩碼的 tokens 開(kāi)始生成蛋白質(zhì),并迭代解掩,直到所有位置都被填充。由于序列、結(jié)構(gòu)和功能都在訓(xùn)練過(guò)程中被掩碼和預(yù)測(cè),ESM3 可以在所有三種模態(tài)中生成。這個(gè)生成過(guò)程也可以由序列、結(jié)構(gòu)和功能的部分或全部規(guī)范的任何組合來(lái)指導(dǎo)。

ESM3 的多模態(tài)推理能力使科學(xué)家能夠以前所未有的控制程度產(chǎn)生新的蛋白質(zhì)。例如,可以提示該模型結(jié)合結(jié)構(gòu)、序列和功能,為 PETase 的活性位點(diǎn)提出潛在框架,PETase 是一種降解聚對(duì)苯二甲酸乙二醇酯(PET)塑料的酶。

規(guī)模帶來(lái)的能力涌現(xiàn)

ESM3 在規(guī)模擴(kuò)大時(shí)展現(xiàn)出解決復(fù)雜蛋白質(zhì)設(shè)計(jì)任務(wù)的能力。其中一項(xiàng)任務(wù)是原子協(xié)調(diào),即根據(jù)指定氨基酸在序列中相距甚遠(yuǎn)但在結(jié)構(gòu)中彼此靠近的原子位置的提示來(lái)設(shè)計(jì)蛋白質(zhì)。這衡量了模型在結(jié)構(gòu)生成時(shí)達(dá)到原子級(jí)精度的能力,對(duì)于設(shè)計(jì)功能性蛋白質(zhì)至關(guān)重要。

ESM3 解決這些任務(wù)的能力會(huì)隨著規(guī)模的擴(kuò)大而提升,也就是說(shuō),ESM3 解決更難的生成問(wèn)題的能力取決于其規(guī)模。

ESM3 進(jìn)一步通過(guò)使用類似于在大語(yǔ)言模型(LLM)中應(yīng)用的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的對(duì)齊方法進(jìn)行反饋改進(jìn)。ESM3 能夠自我改進(jìn),而非從人類那里獲得反饋,它能對(duì)自身生成的內(nèi)容質(zhì)量進(jìn)行評(píng)估。來(lái)自實(shí)驗(yàn)室實(shí)驗(yàn)或現(xiàn)有實(shí)驗(yàn)數(shù)據(jù)的反饋也可用提升其生成能力。

ESM3 模型生成蛋白質(zhì)的能力隨著規(guī)模的擴(kuò)大而提升

ESM3 模型生成蛋白質(zhì)的能力隨著規(guī)模的擴(kuò)大而提升

模擬 5 億年的進(jìn)化過(guò)程

綠色熒光蛋白(GFP)及其熒光蛋白家族,是自然界中最美麗的蛋白質(zhì)之一。下村修、Martin Chalfie 和錢永健因發(fā)現(xiàn)和應(yīng)用 GFP 而獲得了 2008 年諾貝爾化學(xué)獎(jiǎng)。

GFP 是生物學(xué)中應(yīng)用最廣泛的工具之一,被譽(yù)為“照亮了生命科學(xué)”。GFP 含有一種熒光發(fā)色團(tuán),其能吸收一個(gè)短波長(zhǎng)的單色光子,捕獲其中部分能量,并以不同顏色、更長(zhǎng)波長(zhǎng)的新光子形式釋放其余能量。天然的 GFP 能夠吸收藍(lán)光并發(fā)出綠光。

GFP 是一種能自我轉(zhuǎn)變的蛋白質(zhì),其結(jié)構(gòu)是一個(gè)由 11 條鏈組成的桶狀結(jié)構(gòu),中間有一條螺旋貫穿其中,在 GFP 折疊完成后,會(huì)自發(fā)地發(fā)生反應(yīng)。在 GFP 的中心,構(gòu)成蛋白質(zhì)鏈的原子重新排列成新的結(jié)構(gòu),形成一個(gè)熒光發(fā)色團(tuán)。這種機(jī)制是獨(dú)一無(wú)二的,沒(méi)有其他已知的蛋白質(zhì)能自發(fā)地從自身結(jié)構(gòu)中形成熒光發(fā)色團(tuán),這表明即使對(duì)大自然來(lái)說(shuō),產(chǎn)生熒光也并非易事。

科學(xué)家們?cè)谧匀唤缰邪l(fā)現(xiàn)了許多 GFP 的變體,并在實(shí)驗(yàn)室中對(duì)這些天然蛋白質(zhì)進(jìn)行了改造,創(chuàng)造出了新的 GFP 變體。最早的人工 GFP 變體是通過(guò)制造少量能增強(qiáng)亮度或改變顏色的基因突變而發(fā)現(xiàn)的。借助更先進(jìn)的實(shí)驗(yàn)室技術(shù)和機(jī)器學(xué)習(xí)方法,如今已能夠?qū)⑦@種搜索范圍擴(kuò)大,從而找到與原始序列差異高達(dá) 20% 的 GFP 變體。但大多數(shù)功能性 GFP 突變并非來(lái)自蛋白質(zhì)工程,而是通過(guò)探索自然界獲得的。

產(chǎn)生新的熒光蛋白的進(jìn)化過(guò)程需要漫長(zhǎng)的歲月,在遙遠(yuǎn)的過(guò)去,大自然無(wú)意中發(fā)明了第一種熒光蛋白。天然熒光蛋白從遠(yuǎn)古時(shí)期的祖先序列歷經(jīng)數(shù)億年的演化,才變成了如今的模樣。

基于天然 GFP 核心區(qū)域幾個(gè)氨基酸殘基的結(jié)構(gòu),ESM3 通過(guò)一系列推理生成了新型 GFP 的候選結(jié)構(gòu)。研究團(tuán)隊(duì)在首次實(shí)驗(yàn)中測(cè)試了生成的 96 種 GFP,發(fā)現(xiàn)其中一些會(huì)發(fā)出熒光,包括一種與自然界中的任何蛋白質(zhì)都相去甚遠(yuǎn)的蛋白質(zhì)——B8,但其亮度只有天然 GFP 的五十分之一,而且其發(fā)色團(tuán)成熟需要一周時(shí)間,而不是一天之內(nèi),但它在序列空間的一個(gè)未被探索的區(qū)域中呈現(xiàn)出功能信號(hào)。在 B8 的基礎(chǔ)上進(jìn)行思維鏈推理,ESM3 又生成了一組 96 種蛋白質(zhì),其中有幾個(gè)熒光強(qiáng)度與天然 GFP 相似,最亮的一個(gè)位于 C10 孔中,研究團(tuán)隊(duì)將其命名為——esmGFP。

esmGFP

esmGFP 與自然界中發(fā)現(xiàn)的最接近的熒光蛋白相比存在 96 處突變(在 229 個(gè)氨基酸中,序列相似度為 58%)。通過(guò)類似于對(duì)自然界中新發(fā)現(xiàn)的蛋白質(zhì)進(jìn)行的分析,研究團(tuán)隊(duì)估計(jì) esmGFP 相當(dāng)于由進(jìn)化模擬器完成的超過(guò) 5 億年的自然演化。

esmGFP

由ESM3模型生成的新的綠色熒光蛋白——esmGFP

據(jù)悉,EvolutionaryScale 公司正在開(kāi)發(fā) ESM3 的專用版本,以解鎖前沿藥物設(shè)計(jì)領(lǐng)域的應(yīng)用,助力科學(xué)家創(chuàng)造新型藥物。

EvolutionaryScale 公司表示,相信未來(lái)的人工智能將幫助我們?cè)谧罨A(chǔ)的層面上理解生命的復(fù)雜系統(tǒng),做出改變我們對(duì)生物學(xué)認(rèn)知的新發(fā)現(xiàn),助力我們找到疾病治療方法,并構(gòu)建一個(gè)更可持續(xù)的世界。

參考鏈接:

https://www.science.org/doi/10.1126/science.ads0018
https://www.science.org/doi/10.1126/science.ade2574
https://www.evolutionaryscale.ai/blog/esm3-release

相關(guān)文章

合作咨詢

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2025 上海博華國(guó)際展覽有限公司版權(quán)所有(保留一切權(quán)利) 滬ICP備05034851號(hào)-57
弥渡县| 和田县| 桃江县| 中山市| 高安市| 宝山区| 蒙阴县| 临澧县| 水城县| 城口县| 壤塘县| 禄丰县| 普陀区| 景泰县| 望谟县| 邓州市| 新闻| 安塞县| 石屏县| 沧源| 晴隆县| 庆安县| 康乐县| 永新县| 景洪市| 平泉县| 西华县| 公安县| 盐津县| 太仓市| 琼海市| 合水县| 河北省| 洮南市| 芜湖县| 崇阳县| 民权县| 南安市| 绩溪县| 颍上县| 东乡族自治县|