成人国产精品一级毛片视频,毛片三级在线观看,中国黄色在线观看,婷婷久久综合九色综合九七,久久久免费视频观看,国产99在线播放,日本成人福利

產品分類導航
CPHI制藥在線 資訊 Science封面:華人學者開發(fā)AI模型,學會生命的語言,生成新型CRISPR系統(tǒng)乃至整個基因組

Science封面:華人學者開發(fā)AI模型,學會生命的語言,生成新型CRISPR系統(tǒng)乃至整個基因組

熱門推薦: CRISPR系統(tǒng) AI模型 DNA序列
作者:王聰  來源:生物世界
  2024-11-15
生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學過程,并開辟新途徑,將生物學轉化為有用的技術。

       眾所周知,生命的基本指令都包含在所有生物體的DNA序列中。理解這些指令可以幫助我們更深入地了解生物學過程,并開辟新途徑,將生物學轉化為有用的技術。然而,即便是最簡單的微生物基因組也極其復雜,例如被人類研究的最為透徹的大腸桿菌,其基因組包含數百萬堿基對,用于編碼DNA、RNA和蛋白質之間的相互作用,而這三者是細胞功能的關鍵參與者,它們之間的信息流動構成了生命的“中心法則”。基因組的這種復雜性存在于多個尺度上,從單個分子到整個基因組,代表著在進化過程中經過功能選擇的龐大的遺傳信息景觀。

       人工智能(AI)的快速發(fā)展使得大語言模型(large language model,LLM)能夠在大量數據的訓練下展現出越來越先進的多任務推理和生成能力。如果開發(fā)出一種能夠在大基因序列上保持單核苷酸分辨率的模型,就可能提取出關于嵌入在自然進化變異模式中的復雜分子相互作用的功能信息。

       2024年11月15日,Arc研究所的 Patrick D. HsuBrian L. Hie 團隊在國際頂尖學術期刊 Sciencce 上發(fā)表了題為:Sequence modeling and design from molecular to genome scale with Evo 的研究論文【1】,該論文還被選為當期的封面論文。

       該研究開發(fā)了從分子到基因組尺度都能進行預測和生成任務的基因組基礎模型——Evo模型。這是第一個在全基因組規(guī)模上以單核苷酸分辨率預測和生成DNA序列的模型。

       通過對整個基因組信息進行學習,Evo模型能夠學習微小的核苷酸序列變化如何影響整個生物體的適應性,從而預測哪些基因對于生物體至關重要,還能夠生成長度超過百萬堿基對的具有合理基因組結構的DNA序列。研究團隊還使用Evo模型生成了CRISPR-Cas分子復合物和IS200/IS605轉座子,并驗證了它們的功能活性,這也是首次通過語言模型實現蛋白質-RNA和蛋白質-DNA協同設計的實例。

       在生物中,一切都從DNA開始,基因組攜帶構成完整生命體的一整套DNA(遺傳密碼),這是世代進化的結果,反映了生命對不斷變化的環(huán)境的適應。其他復雜的生物語言則是從DNA衍生而來,包括蛋白質和RNA,蛋白質負責執(zhí)行生命功能,RNA幫助DNA傳遞信息并幫助蛋白質執(zhí)行功能。盡管這三者看起來是多層次的,但它們都被“中心法則”統(tǒng)一在基因組中。

       人工智能基礎模型的出現,為生物序列建模指明了一條有前景的道路,但尚未實現全基因組水平的建模。DNA序列非常長,例如我們人類有著30億堿基對,簡單如大腸桿菌也有這數百萬堿基對。要想充分理解進化的影響,需要具有單個核苷酸分辨率的分辨率,這些問題使得大規(guī)模預訓練特別具有挑戰(zhàn)性。

       到目前為止,還不清楚人工智能(AI)模型是否能夠在這么長的基因組序列中有效地學習其復雜模式。因此,現有的利用AI建模生物序列的突破主要集中在短上下文、特定任務和單模態(tài)能力,例如AlphaFold、ESMFold、Nucleotide Transformer。

       因此,我們需要一個基礎模型(Foundation Model),該模型可以整合長基因組序列上的信息,同時保持對單核苷酸變化的敏感性。一個有效地學習基因組的模型不僅可以理解個體的DNA、RNA和蛋白質組分,還可以理解這些成分如何通過相互作用來創(chuàng)建復雜系統(tǒng)。這有助于加速我們對生物學機制的理解,以及設計生命的能力。

Brian L. Hie(左)和Patrick D. Hsu(右)

       在這項研究中,研究團隊開發(fā)了一個DNA基礎模型——Evo模型,旨在捕捉生物的兩個基本方面:中心法則的多模態(tài)性和進化的多尺度特性。中心法則(Central Dogma)將DNA、RNA和蛋白質統(tǒng)一在一個編碼體系和可預測的信息流中,而進化(Evolution)則將分子、通路、細胞和生物體這些在功能上極為不同的尺度統(tǒng)一起來。

       研究團隊使用主流架構進行DNA預訓練后發(fā)現,Transformer模型在以單核苷酸、字節(jié)級分辨率進行訓練時,可擴展性不太好,這表明自然語言中的主要架構不一定能遷移到DNA語言中。為了克服與長序列和字節(jié)級分辨率的基因組序列建模相關挑戰(zhàn),研究團隊使用了基于深度信號處理技術的最新架構——StripedHyena,相比Transformer,StripedHyena架構將Evo的參數數量擴大到了70億,同時在131千堿基(131kb)的上下文長度中保持了單核苷酸分辨率。

       Evo模型是在270萬種原核生物噬菌體的基因組上進行訓練的,它能夠在DNA、RNA和蛋白質模式下實現零樣本功能預測,其性能與或優(yōu)于特定領域的語言模型。

基于原核生物基因組預訓練的長文本基因組基礎模型

基于StripedHyena的Evo模型架構

       通過對整個基因組的信息進行學習,Evo能夠理解微小的核苷酸序列變化(基因突變)如何影響整個生物體的適應性,從而預測哪些基因對于生物體至關重要。而在實驗室中進行基因必要性研究,通常需要6個月到1年時間。

       由于Evo模型是在包含蛋白質編碼序列的長基因組序列上訓練的,因此研究團隊測試了該模型是否也能很好地學習蛋白質語言,從而執(zhí)行零樣本(Zero-shot)蛋白質功能預測。結果顯示,Evo模型優(yōu)于所有其他已測試的核苷酸模型,包括僅在蛋白質編碼序列上明確訓練的模型,甚至可以與最先進的蛋白質語言模型競爭(例如ESM或ProGen)。值得注意的是,Evo模型能夠實現非編碼RNA(ncRNA)和調節(jié)性DNA的零樣本功能預測,從而跨越“中心法則”的所有三種成分——DNA、RNA和蛋白質。

Evo模型的學習能力橫跨蛋白質、RNA和DNA

       目前,生物學的生成模型通常只關注一種模式——例如只生成蛋白質或只生成RNA。而Evo模型的一個關鍵突破之處在于可執(zhí)行多模態(tài)生成任務,研究團隊使用Evo模型生成了全新的CRISPR系統(tǒng),這種由蛋白質和RNA組成的大型蛋白復合體,是現有的生成模型無法做到的。

       CRISPR系統(tǒng)是原核生物中天然存在的免疫系統(tǒng),被改造用于基因編輯。通常情況下,我們需要從自然界基因組中搜尋以發(fā)現新的CRISPR系統(tǒng)。而現在,Evo模型能夠直接生成一個全新的CRISPR系統(tǒng),讓我們擁有了創(chuàng)造新型基因組編輯工具的能力。

設計生成新型CRISPR-Cas分子復合物

       研究團隊將Evo模型設計生成的EvoCas9-1與sgRNA進行重組表達和純化,其在體外的基因編輯效率與spCas9-sgRNA相當。

Evo模型設計生成的CRISPR-Cas9系統(tǒng)及功能驗證

       此外,研究團隊還使用Evo模型設計生成了IS200/IS605轉座子系統(tǒng),并實驗驗證了其功能活性。

       據悉,這也是首次通過語言模型實現蛋白質-RNA和蛋白質-DNA協同設計的實例。

       并能夠生成長度超過百萬堿基對的具有合理基因組結構的DNA序列。像Evo這樣的大規(guī)模生物序列模型的進一步發(fā)展,結合DNA合成技術以及基因組工程技術的進步,將加快我們對生命進行工程化的能力。

       除了在多分子(蛋白質和ncRNA)規(guī)模上生成序列,Evo模型還能夠生成長度超過百萬堿基對的具有合理基因組結構的DNA序列,且生成的序列中包含了數千個潛在的蛋白質編碼序列,從而讓我們擁有了全基因組規(guī)模序列生成的潛力。這種大規(guī)模的序列生成是由Evo模型的長上下文功能和高效的推理模式實現的。

Evo模型,能夠從單個核苷酸到整個基因組學習生物復雜性

       研究團隊表示,Evo模型標志著我們在模擬生物序列的一個轉折點,相信這項技術有潛力加速我們科學(包括生物學、化學或材料科學)的發(fā)現和理解,以及應用于現實世界的問題(包括藥物發(fā)現、農業(yè)和可持續(xù)性)。基礎模型將成為越來越重要的科學工具,期待訓練更大的模型,提高它們的生成能力,并將Evo預訓練擴展到人類基因組。通過增強這些模型學習的生物復雜性,相信我們可以在對抗復雜疾病和改善人類健康方面取得重大進展。

       最后,研究團隊表示即將開源更大規(guī)模的3000億token的訓練數據集——OpenGenome,由270萬個公開可用的原核基因組和噬菌體基因組組成,這是公開可用的最大的DNA預訓練數據集,希望它將有助于加速DNA語言模型這個令人興奮和有影響的領域的研究。

       相關閱讀:

       2024年10月30日,北京理工大學邵斌教授課題組在 Nature Communications 期刊發(fā)表了題為:A long-context language model for deciphering and generating bacteriophage genomes 的研究論文【2】。詳情:邵斌團隊實現首個生成式DNA大語言模型——破譯并生成病毒基因組

       該研究實現了首個生成式DNA大語言模型——megaDNA。該模型利用無標注的噬菌體基因組數據進行預訓練,不僅能準確預測噬菌體的必需基因,更能夠生成長達10萬堿基對的嶄新基因組片段,也就是能夠像寫作自然語言一樣生成DNA序列。另外,該模型在學習過程中獲得的深層信息(embedding),還能應用于蛋白質突變效果預測、基因調控研究,以及無標注DNA片段分類等多個下游任務,展現出良好的泛化能力。

       論文鏈接:

       1. https://www.science.org/doi/10.1126/science.ado9336

       2. https://www.nature.com/articles/s41467-024-53759-4

相關文章

合作咨詢

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2025 上海博華國際展覽有限公司版權所有(保留一切權利) 滬ICP備05034851號-57
原阳县| 盖州市| 柳河县| 乐昌市| 江油市| 海门市| 长寿区| 东丽区| 马鞍山市| 泾川县| 尚义县| 康平县| 绍兴市| 茶陵县| 灵山县| 招远市| 莱芜市| 抚远县| 郯城县| 扎赉特旗| 青岛市| 肥东县| 德清县| 昌平区| 澜沧| 沙田区| 孟村| 台北市| 福贡县| 神农架林区| 南通市| 玉溪市| 澄迈县| 赤壁市| 张北县| 延川县| 大悟县| 丹东市| 合江县| 贵溪市| 宜兰县|