近年來,單細(xì)胞組學(xué)技術(shù)的快速發(fā)展為描繪細(xì)胞的復(fù)雜狀態(tài)提供了前所未有的海量數(shù)據(jù),深刻推動(dòng)生命科學(xué)研究進(jìn)入精細(xì)解析基因調(diào)控機(jī)制的新階段。與此同時(shí),深度學(xué)習(xí)和大規(guī)模預(yù)訓(xùn)練基礎(chǔ)模型(Foundation Models)在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域的成功,為生命科學(xué)提供了強(qiáng)有力的技術(shù)支持。
近期,中國科學(xué)院多學(xué)科交叉研究團(tuán)隊(duì)"指南針聯(lián)盟"(Xcompass Consortium)開發(fā)了Cell-GraphCompass(CGCompass)。該模型創(chuàng)新性地采用了圖神經(jīng)網(wǎng)絡(luò)融入豐富生物學(xué)知識(shí)并基于5000萬人類單細(xì)胞數(shù)據(jù)集訓(xùn)練從而構(gòu)建了新型人類單細(xì)胞基礎(chǔ)模型。CGCompass采用圖結(jié)構(gòu)算法建模單個(gè)細(xì)胞,將基因視為圖中的節(jié)點(diǎn),基因之間的相互關(guān)系作為圖的邊,通過圖神經(jīng)網(wǎng)絡(luò)深入挖掘基因間的復(fù)雜聯(lián)系及其在細(xì)胞中的動(dòng)態(tài)表達(dá)特征。該模型利用數(shù)千萬高質(zhì)量單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行大規(guī)模預(yù)訓(xùn)練,不僅提升了對(duì)基因調(diào)控機(jī)制的理解能力,還為細(xì)胞類型鑒定、基因擾動(dòng)預(yù)測等多種生命科學(xué)任務(wù)提供了強(qiáng)大技術(shù)支持,為構(gòu)建更加全面仿真的人類AI虛擬細(xì)胞邁出了重要一步。
CGCompass模型架構(gòu):圖神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的知識(shí)融合
CGCompass基于單細(xì)胞RNA測序數(shù)據(jù)構(gòu)建細(xì)胞的圖結(jié)構(gòu),將細(xì)胞和基因分別視作圖中的節(jié)點(diǎn),利用圖神經(jīng)網(wǎng)絡(luò)(GNN)結(jié)合基因表達(dá)信息、調(diào)控網(wǎng)絡(luò)、基因共表達(dá)關(guān)系、基因位置關(guān)系以及文獻(xiàn)挖掘的生物先驗(yàn)知識(shí),形成多層嵌入表達(dá)。預(yù)訓(xùn)練采用自監(jiān)督學(xué)習(xí)策略,隨機(jī)遮蔽基因表達(dá)信息,促使模型在豐富細(xì)胞背景下準(zhǔn)確恢復(fù)掩碼表達(dá)值,捕獲復(fù)雜的基因間長程動(dòng)態(tài)關(guān)系。該模型能夠生成高維且生物學(xué)意義深厚的基因和細(xì)胞表征,為下游多樣化任務(wù)提供堅(jiān)實(shí)基礎(chǔ)。
CGCompass模型架構(gòu)
優(yōu)異的聚類和細(xì)胞類型注釋表現(xiàn)
依托細(xì)胞圖結(jié)構(gòu),CGCompass在多批次、多平臺(tái)的單細(xì)胞數(shù)據(jù)上實(shí)現(xiàn)了出色的批次效應(yīng)消除。通過無監(jiān)督聚類,模型成功區(qū)分出多種細(xì)胞類型,充分展現(xiàn)了其對(duì)生物信號(hào)的深刻感知能力。在細(xì)胞類型注釋任務(wù)中,CGCompass基于reference集對(duì)query集進(jìn)行了高精度預(yù)測。盡管兩者存在顯著的數(shù)據(jù)分布差異,CGCompass憑借大規(guī)模預(yù)訓(xùn)練與深度融合的生物學(xué)先驗(yàn),有效規(guī)避了對(duì)reference集的過擬合,展現(xiàn)出強(qiáng)大的泛化與遷移能力,注釋準(zhǔn)確率持續(xù)領(lǐng)先。
CGCompass的聚類(左)和注釋(右)結(jié)果
強(qiáng)大的Zero-shot能力,支持多樣化應(yīng)用場景
預(yù)訓(xùn)練基礎(chǔ)模型具備直接遷移到新任務(wù)的能力,CGCompass的zero-shot推理表現(xiàn)尤為突出。在不同實(shí)驗(yàn)室、物種、疾病狀態(tài)下,模型均能生成高質(zhì)量細(xì)胞和基因嵌入,顯著提升多種生物學(xué)任務(wù)的執(zhí)行效率。無須額外標(biāo)注數(shù)據(jù),即可為新數(shù)據(jù)提供細(xì)胞類型注釋、基因功能識(shí)別等支持,極大降低了生命科學(xué)研究中數(shù)據(jù)標(biāo)注的門檻。
CGCompass的zero-shot測試結(jié)果
細(xì)胞基因擾動(dòng)模擬,推動(dòng)基因調(diào)控機(jī)制解析
CGCompass在基因擾動(dòng)響應(yīng)預(yù)測中表現(xiàn)優(yōu)異。通過在單細(xì)胞基因擾動(dòng)(Perturb-seq)數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練模型,CGCompass能準(zhǔn)確新的擾動(dòng)條件下基因表達(dá)的變化。與現(xiàn)有先進(jìn)模型相比,CGCompass在單基因及雙基因擾動(dòng)的表達(dá)預(yù)測均有明顯提升,且能區(qū)分基因表達(dá)的上調(diào)、下調(diào)及不變狀態(tài)。此能力不僅助力基因調(diào)控網(wǎng)絡(luò)的推斷,還可用于藥物作用機(jī)制分析和精準(zhǔn)治療靶點(diǎn)篩選。
CGCompass模擬單細(xì)胞基因擾動(dòng)響應(yīng)
拓展至體細(xì)胞基因敲除預(yù)測,實(shí)現(xiàn)多尺度生物學(xué)建模
在單細(xì)胞擾動(dòng)實(shí)驗(yàn)的基礎(chǔ)上,CGCompass進(jìn)一步拓展至體(bulk)細(xì)胞的基因敲除預(yù)測任務(wù)。體細(xì)胞測序數(shù)據(jù)反映的是細(xì)胞的局部群體行為,具有顯著的數(shù)據(jù)分布不平衡特征:多數(shù)基因在敲除前后表達(dá)量變化不大,容易導(dǎo)致深度學(xué)習(xí)模型"偷懶"--將所有基因預(yù)測為不變,從而獲得看似較高的準(zhǔn)確率。為解決這一挑戰(zhàn),CGCompass引入兩階段遷移學(xué)習(xí)策略:模型首先在大規(guī)模單細(xì)胞數(shù)據(jù)上完成預(yù)訓(xùn)練,再在體細(xì)胞數(shù)據(jù)上進(jìn)行二次預(yù)訓(xùn)練,最后在基因敲除數(shù)據(jù)上進(jìn)行精調(diào)。該策略有效增強(qiáng)了模型對(duì)表達(dá)變化的敏感性,實(shí)現(xiàn)了對(duì)基因上調(diào)、下調(diào)及不變狀態(tài)的精準(zhǔn)分類。相較傳統(tǒng)方法,CGCompass不僅保持整體預(yù)測準(zhǔn)確率,更顯著提升了對(duì)差異表達(dá)基因的識(shí)別能力,展現(xiàn)出強(qiáng)大的泛化性能和在真實(shí)應(yīng)用中的巨大潛力。
CGCompass預(yù)測bulk層面的基因敲除結(jié)果
展望未來:多組學(xué)融合與精準(zhǔn)生命科學(xué)新時(shí)代
CGCompass標(biāo)志著圖神經(jīng)網(wǎng)絡(luò)與生命科學(xué)大數(shù)據(jù)融合的新突破,未來團(tuán)隊(duì)計(jì)劃進(jìn)一步整合ATAC-seq、蛋白質(zhì)組學(xué)及表觀遺傳數(shù)據(jù),打造更全面的多組學(xué)基礎(chǔ)模型。同時(shí),將探索先進(jìn)生命科學(xué)文本大模型及半監(jiān)督、長尾學(xué)習(xí)方法,進(jìn)一步提升模型對(duì)稀缺數(shù)據(jù)和復(fù)雜生物現(xiàn)象的適應(yīng)力。CGCompass有望助力細(xì)胞命運(yùn)重編程、腫瘤精準(zhǔn)治療、類器官培養(yǎng)等前沿領(lǐng)域,開啟智能生命科學(xué)研究新時(shí)代。
關(guān)于團(tuán)隊(duì)
CGCompass模型由中國科學(xué)院大學(xué)前沿交叉科學(xué)學(xué)院、中國科學(xué)院動(dòng)物研究所李鑫團(tuán)隊(duì)聯(lián)合中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、科大訊飛等多學(xué)科團(tuán)隊(duì)共同研發(fā),該團(tuán)隊(duì)致力于構(gòu)建數(shù)智驅(qū)動(dòng)的生命科學(xué)研究新范式,深度解析生命本質(zhì)規(guī)律。中國科學(xué)院動(dòng)物所李鑫研究員、馮桂海研究員,計(jì)算機(jī)網(wǎng)絡(luò)信息中心周園春研究員、孟珍研究員、科大訊飛陳凌輝為論文共同通訊作者,房晨、崔文韜、胡智龍為共同第一作者。
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com