成人国产精品一级毛片视频,毛片三级在线观看,中国黄色在线观看,婷婷久久综合九色综合九七,久久久免费视频观看,国产99在线播放,日本成人福利

產(chǎn)品分類(lèi)導航
CPHI制藥在線(xiàn) 資訊 Science封面:華人學(xué)者開(kāi)發(fā)AI模型,學(xué)會(huì )生命的語(yǔ)言,生成新型CRISPR系統乃至整個(gè)基因組

Science封面:華人學(xué)者開(kāi)發(fā)AI模型,學(xué)會(huì )生命的語(yǔ)言,生成新型CRISPR系統乃至整個(gè)基因組

熱門(mén)推薦: CRISPR系統 AI模型 DNA序列
作者:王聰  來(lái)源:生物世界
  2024-11-15
生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學(xué)過(guò)程,并開(kāi)辟新途徑,將生物學(xué)轉化為有用的技術(shù)。

       眾所周知,生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學(xué)過(guò)程,并開(kāi)辟新途徑,將生物學(xué)轉化為有用的技術(shù)。然而,即便是最簡(jiǎn)單的微生物基因組也極其復雜,例如被人類(lèi)研究的最為透徹的大腸桿菌,其基因組包含數百萬(wàn)堿基對,用于編碼DNA、RNA和蛋白質(zhì)之間的相互作用,而這三者是細胞功能的關(guān)鍵參與者,它們之間的信息流動(dòng)構成了生命的“中心法則”。基因組的這種復雜性存在于多個(gè)尺度上,從單個(gè)分子到整個(gè)基因組,代表著(zhù)在進(jìn)化過(guò)程中經(jīng)過(guò)功能選擇的龐大的遺傳信息景觀(guān)。

       人工智能(AI)的快速發(fā)展使得大語(yǔ)言模型(large language model,LLM)能夠在大量數據的訓練下展現出越來(lái)越先進(jìn)的多任務(wù)推理和生成能力。如果開(kāi)發(fā)出一種能夠在大基因序列上保持單核苷酸分辨率的模型,就可能提取出關(guān)于嵌入在自然進(jìn)化變異模式中的復雜分子相互作用的功能信息。

       2024年11月15日,Arc研究所的 Patrick D. HsuBrian L. Hie 團隊在國際頂尖學(xué)術(shù)期刊 Sciencce 上發(fā)表了題為:Sequence modeling and design from molecular to genome scale with Evo 的研究論文【1】,該論文還被選為當期的封面論文。

       該研究開(kāi)發(fā)了從分子到基因組尺度都能進(jìn)行預測和生成任務(wù)的基因組基礎模型——Evo模型。這是第一個(gè)在全基因組規模上以單核苷酸分辨率預測和生成DNA序列的模型。

       通過(guò)對整個(gè)基因組信息進(jìn)行學(xué)習,Evo模型能夠學(xué)習微小的核苷酸序列變化如何影響整個(gè)生物體的適應性,從而預測哪些基因對于生物體至關(guān)重要,還能夠生成長(cháng)度超過(guò)百萬(wàn)堿基對的具有合理基因組結構的DNA序列。研究團隊還使用Evo模型生成了CRISPR-Cas分子復合物和IS200/IS605轉座子,并驗證了它們的功能活性,這也是首次通過(guò)語(yǔ)言模型實(shí)現蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設計的實(shí)例。

       在生物中,一切都從DNA開(kāi)始,基因組攜帶構成完整生命體的一整套DNA(遺傳密碼),這是世代進(jìn)化的結果,反映了生命對不斷變化的環(huán)境的適應。其他復雜的生物語(yǔ)言則是從DNA衍生而來(lái),包括蛋白質(zhì)和RNA,蛋白質(zhì)負責執行生命功能,RNA幫助DNA傳遞信息并幫助蛋白質(zhì)執行功能。盡管這三者看起來(lái)是多層次的,但它們都被“中心法則”統一在基因組中。

       人工智能基礎模型的出現,為生物序列建模指明了一條有前景的道路,但尚未實(shí)現全基因組水平的建模。DNA序列非常長(cháng),例如我們人類(lèi)有著(zhù)30億堿基對,簡(jiǎn)單如大腸桿菌也有這數百萬(wàn)堿基對。要想充分理解進(jìn)化的影響,需要具有單個(gè)核苷酸分辨率的分辨率,這些問(wèn)題使得大規模預訓練特別具有挑戰性。

       到目前為止,還不清楚人工智能(AI)模型是否能夠在這么長(cháng)的基因組序列中有效地學(xué)習其復雜模式。因此,現有的利用AI建模生物序列的突破主要集中在短上下文、特定任務(wù)和單模態(tài)能力,例如AlphaFold、ESMFold、Nucleotide Transformer。

       因此,我們需要一個(gè)基礎模型(Foundation Model),該模型可以整合長(cháng)基因組序列上的信息,同時(shí)保持對單核苷酸變化的敏感性。一個(gè)有效地學(xué)習基因組的模型不僅可以理解個(gè)體的DNA、RNA和蛋白質(zhì)組分,還可以理解這些成分如何通過(guò)相互作用來(lái)創(chuàng )建復雜系統。這有助于加速我們對生物學(xué)機制的理解,以及設計生命的能力。

Brian L. Hie(左)和Patrick D. Hsu(右)

       在這項研究中,研究團隊開(kāi)發(fā)了一個(gè)DNA基礎模型——Evo模型,旨在捕捉生物的兩個(gè)基本方面:中心法則的多模態(tài)性和進(jìn)化的多尺度特性。中心法則(Central Dogma)將DNA、RNA和蛋白質(zhì)統一在一個(gè)編碼體系和可預測的信息流中,而進(jìn)化(Evolution)則將分子、通路、細胞和生物體這些在功能上極為不同的尺度統一起來(lái)。

       研究團隊使用主流架構進(jìn)行DNA預訓練后發(fā)現,Transformer模型在以單核苷酸、字節級分辨率進(jìn)行訓練時(shí),可擴展性不太好,這表明自然語(yǔ)言中的主要架構不一定能遷移到DNA語(yǔ)言中。為了克服與長(cháng)序列和字節級分辨率的基因組序列建模相關(guān)挑戰,研究團隊使用了基于深度信號處理技術(shù)的最新架構——StripedHyena,相比Transformer,StripedHyena架構將Evo的參數數量擴大到了70億,同時(shí)在131千堿基(131kb)的上下文長(cháng)度中保持了單核苷酸分辨率。

       Evo模型是在270萬(wàn)種原核生物噬菌體的基因組上進(jìn)行訓練的,它能夠在DNA、RNA和蛋白質(zhì)模式下實(shí)現零樣本功能預測,其性能與或優(yōu)于特定領(lǐng)域的語(yǔ)言模型。

基于原核生物基因組預訓練的長(cháng)文本基因組基礎模型

基于StripedHyena的Evo模型架構

       通過(guò)對整個(gè)基因組的信息進(jìn)行學(xué)習,Evo能夠理解微小的核苷酸序列變化(基因突變)如何影響整個(gè)生物體的適應性,從而預測哪些基因對于生物體至關(guān)重要。而在實(shí)驗室中進(jìn)行基因必要性研究,通常需要6個(gè)月到1年時(shí)間。

       由于Evo模型是在包含蛋白質(zhì)編碼序列的長(cháng)基因組序列上訓練的,因此研究團隊測試了該模型是否也能很好地學(xué)習蛋白質(zhì)語(yǔ)言,從而執行零樣本(Zero-shot)蛋白質(zhì)功能預測。結果顯示,Evo模型優(yōu)于所有其他已測試的核苷酸模型,包括僅在蛋白質(zhì)編碼序列上明確訓練的模型,甚至可以與最先進(jìn)的蛋白質(zhì)語(yǔ)言模型競爭(例如ESM或ProGen)。值得注意的是,Evo模型能夠實(shí)現非編碼RNA(ncRNA)和調節性DNA的零樣本功能預測,從而跨越“中心法則”的所有三種成分——DNA、RNA和蛋白質(zhì)。

Evo模型的學(xué)習能力橫跨蛋白質(zhì)、RNA和DNA

       目前,生物學(xué)的生成模型通常只關(guān)注一種模式——例如只生成蛋白質(zhì)或只生成RNA。而Evo模型的一個(gè)關(guān)鍵突破之處在于可執行多模態(tài)生成任務(wù),研究團隊使用Evo模型生成了全新的CRISPR系統,這種由蛋白質(zhì)和RNA組成的大型蛋白復合體,是現有的生成模型無(wú)法做到的。

       CRISPR系統是原核生物中天然存在的免疫系統,被改造用于基因編輯。通常情況下,我們需要從自然界基因組中搜尋以發(fā)現新的CRISPR系統。而現在,Evo模型能夠直接生成一個(gè)全新的CRISPR系統,讓我們擁有了創(chuàng )造新型基因組編輯工具的能力。

設計生成新型CRISPR-Cas分子復合物

       研究團隊將Evo模型設計生成的EvoCas9-1與sgRNA進(jìn)行重組表達和純化,其在體外的基因編輯效率與spCas9-sgRNA相當。

Evo模型設計生成的CRISPR-Cas9系統及功能驗證

       此外,研究團隊還使用Evo模型設計生成了IS200/IS605轉座子系統,并實(shí)驗驗證了其功能活性。

       據悉,這也是首次通過(guò)語(yǔ)言模型實(shí)現蛋白質(zhì)-RNA和蛋白質(zhì)-DNA協(xié)同設計的實(shí)例。

       并能夠生成長(cháng)度超過(guò)百萬(wàn)堿基對的具有合理基因組結構的DNA序列。像Evo這樣的大規模生物序列模型的進(jìn)一步發(fā)展,結合DNA合成技術(shù)以及基因組工程技術(shù)的進(jìn)步,將加快我們對生命進(jìn)行工程化的能力。

       除了在多分子(蛋白質(zhì)和ncRNA)規模上生成序列,Evo模型還能夠生成長(cháng)度超過(guò)百萬(wàn)堿基對的具有合理基因組結構的DNA序列,且生成的序列中包含了數千個(gè)潛在的蛋白質(zhì)編碼序列,從而讓我們擁有了全基因組規模序列生成的潛力。這種大規模的序列生成是由Evo模型的長(cháng)上下文功能和高效的推理模式實(shí)現的。

Evo模型,能夠從單個(gè)核苷酸到整個(gè)基因組學(xué)習生物復雜性

       研究團隊表示,Evo模型標志著(zhù)我們在模擬生物序列的一個(gè)轉折點(diǎn),相信這項技術(shù)有潛力加速我們科學(xué)(包括生物學(xué)、化學(xué)或材料科學(xué))的發(fā)現和理解,以及應用于現實(shí)世界的問(wèn)題(包括藥物發(fā)現、農業(yè)和可持續性)。基礎模型將成為越來(lái)越重要的科學(xué)工具,期待訓練更大的模型,提高它們的生成能力,并將Evo預訓練擴展到人類(lèi)基因組。通過(guò)增強這些模型學(xué)習的生物復雜性,相信我們可以在對抗復雜疾病和改善人類(lèi)健康方面取得重大進(jìn)展。

       最后,研究團隊表示即將開(kāi)源更大規模的3000億token的訓練數據集——OpenGenome,由270萬(wàn)個(gè)公開(kāi)可用的原核基因組和噬菌體基因組組成,這是公開(kāi)可用的最大的DNA預訓練數據集,希望它將有助于加速DNA語(yǔ)言模型這個(gè)令人興奮和有影響的領(lǐng)域的研究。

       相關(guān)閱讀:

       2024年10月30日,北京理工大學(xué)邵斌教授課題組在 Nature Communications 期刊發(fā)表了題為:A long-context language model for deciphering and generating bacteriophage genomes 的研究論文【2】。詳情:邵斌團隊實(shí)現首個(gè)生成式DNA大語(yǔ)言模型——破譯并生成病毒基因組

       該研究實(shí)現了首個(gè)生成式DNA大語(yǔ)言模型——megaDNA。該模型利用無(wú)標注的噬菌體基因組數據進(jìn)行預訓練,不僅能準確預測噬菌體的必需基因,更能夠生成長(cháng)達10萬(wàn)堿基對的嶄新基因組片段,也就是能夠像寫(xiě)作自然語(yǔ)言一樣生成DNA序列。另外,該模型在學(xué)習過(guò)程中獲得的深層信息(embedding),還能應用于蛋白質(zhì)突變效果預測、基因調控研究,以及無(wú)標注DNA片段分類(lèi)等多個(gè)下游任務(wù),展現出良好的泛化能力。

       論文鏈接:

       1. https://www.science.org/doi/10.1126/science.ado9336

       2. https://www.nature.com/articles/s41467-024-53759-4

相關(guān)文章

合作咨詢(xún)

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2025 上海博華國際展覽有限公司版權所有(保留一切權利) 滬ICP備05034851號-57
溆浦县| 中牟县| 浦东新区| 高碑店市| 宿州市| 东丰县| 高州市| 义马市| 荣成市| 蒙阴县| 广丰县| 商都县| 金塔县| 德阳市| 元阳县| 金沙县| 长寿区| 济阳县| 昌图县| 玛沁县| 新宾| 斗六市| 宾川县| 宁乡县| 桃园市| 镇江市| 廉江市| 恩施市| 阳西县| 黄浦区| 菏泽市| 措美县| 鹤岗市| 郯城县| 平和县| 新巴尔虎右旗| 嘉峪关市| 马鞍山市| 新疆| 温泉县| 逊克县|