人類必需蛋白(Human essential protein,HEP)對于個體的生存和發(fā)育是必不可少的。然而,鑒定HEP的實驗方法往往昂貴、耗時和勞動密集型的,例如CRISPR-Cas9基因敲除實驗及基因過表達實驗,且這些實驗方法難以推廣到人類全蛋白質(zhì)組。
因此,亟需計算方法來快速準(zhǔn)確預(yù)測人類全部蛋白質(zhì)的重要性,但現(xiàn)有的計算方法只能在人源細(xì)胞系水平預(yù)測HEP,而實際上,HEP在人類、細(xì)胞系和動物模型中存在高度差異性。這就要求我們在設(shè)計預(yù)測算法時,不僅需要提升算法的預(yù)測精度,還要需要考慮蛋白質(zhì)重要性存在的變異性。
近年來,深度學(xué)習(xí)(Deep Learning,DL)和大語言模型(Large Language Model,LLM)技術(shù)的快速發(fā)展,為蛋白質(zhì)重要性預(yù)測提供了新思路。
2024年11月27日,崔慶華團隊在 Nature 子刊 Nature Computational Science 上發(fā)表了題為:Comprehensive prediction and analysis of human protein essentiality based on a pre-trained protein large language model 的研究論文。
該研究通過微調(diào)預(yù)訓(xùn)練的蛋白質(zhì)語言模型,開發(fā)了一個基于序列的深度學(xué)習(xí)模型——蛋白質(zhì)重要性計算器(Protein Importance Calculator,PIC),實現(xiàn)人類蛋白必要性/重要性的綜合預(yù)測和分析。
該研究提出的PIC算法相較于此前最先進的計算方法DeepCellEss獲得顯著性能提升(AUROC和AUPRC分別提升9.64%和10.52%)。
除了具有優(yōu)異的性能外,PIC算法是首個可以同時預(yù)測蛋白質(zhì)在人體、人源細(xì)胞系和小鼠中的重要性評分的工具,能夠為人類所有蛋白質(zhì)的重要性進行綜合的預(yù)測評估。在案例研究中,研究團隊使用PIC算法成功預(yù)測了人類乳腺癌中的關(guān)鍵蛋白質(zhì)靶點,并證明了其作為乳腺癌患者預(yù)后標(biāo)志物的價值。
最后,研究團隊使用PIC算法首次為617462種人類微蛋白(Human microproteins)的重要性進行了預(yù)測,這將為微蛋白的研究提供有力幫助。
北京大學(xué)基礎(chǔ)醫(yī)學(xué)院醫(yī)學(xué)生物信息學(xué)系博士生康伯銘和已畢業(yè)博士樊銳為論文共同第一作者,崔慶華教授(現(xiàn)為武漢體育學(xué)院教授)為論文通訊作者,北京大學(xué)基礎(chǔ)醫(yī)學(xué)院為論文第一單位。
論文鏈接:https://www.nature.com/articles/s43588-024-00733-1
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com