冷凍電鏡(cryo-EM)技術(shù)帶來(lái)了分辨率革命,讓我們能夠以原子級的高分辨率觀(guān)察并描繪蛋白質(zhì)結構。基于人工智能(AI)的AlphaFold等工具實(shí)現了對蛋白質(zhì)結構的快速且精準的預測,如今,AlphaFold已經(jīng)預測了地球上幾乎所有已知的蛋白質(zhì)的結構。
從歷史上來(lái)看,結構生物學(xué)(Structural Biology)一直專(zhuān)注于研究已知物質(zhì)。而現在,結構生物學(xué)正經(jīng)歷著(zhù)一種范式轉變——從靶向結構確定到結構引導的發(fā)現先前未被表征的生物實(shí)體。而冷凍電鏡的高分辨率能力以及人工智能的結構預測能力,為探索完全未知的生物實(shí)體提供了前所未有的機會(huì )。
最近,深圳醫學(xué)科學(xué)院顏寧教授團隊接連發(fā)表了幾篇論文,提出了一個(gè)名為CryoSeek(酷尋)的新策略,將冷凍電鏡作為一種觀(guān)察工具,結合AI輔助的自動(dòng)建模和生物信息學(xué)分析,發(fā)現自然界中完全未知的新型生物實(shí)體。
北京時(shí)間2025年1月1日,顏寧、李張強、閆創(chuàng )業(yè)等人在《美國國家科學(xué)院院刊》(PNAS)發(fā)表了題為:CryoSeek II: Cryo-EM analysis of glycofibrils from freshwater reveals well-structured glycans coating linear tetrapeptide repeats 的研究論文。
盡管最近在蛋白質(zhì)的結構測定和預測方面取得了突破性進(jìn)展,但對碳水化合物結構的研究仍然是一個(gè)挑戰。
在這項最新研究中,研究團隊報告了在清華荷塘淡水中發(fā)現的糖蛋白纖維的冷凍電鏡(cryo-EM)分析。研究團隊將其命名為T(mén)LP-4,它是由四肽重復序列的線(xiàn)性多肽鏈組成,外覆>4納米厚的聚糖。在每個(gè)重復中,兩個(gè)聚糖O-連接到一個(gè)3,4-二羥脯氨酸(diHyp),另一個(gè)聚糖連接到相鄰的絲氨酸或蘇氨酸。纖維結構完全通過(guò)聚糖填充來(lái)維持。
生物信息學(xué)分析證實(shí),TLP-4重復序列在物種間的保守性,提示了自然界還存在大量有待發(fā)現的糖蛋白纖維。
此外,對TLP-4和其他糖蛋白纖維的結構研究可以為訓練基于人工智能(AI)的工具建立有價(jià)值的數據集,用于精確聚糖結構預測、模型建立和結合劑設計。
總的來(lái)說(shuō),這一發(fā)現發(fā)現不僅對聚糖在生物組裝中的結構作用提供了有價(jià)值的見(jiàn)解,而且展示了研究團隊最近制定的CryoSeek(酷尋)研究策略在尋找生物實(shí)體以及為碳水化合物的結構研究建立原型方面的潛力。
顏寧教授表示,這篇論文的上線(xiàn)完美標志著(zhù)2025年是實(shí)驗室新方向的正式開(kāi)始——利用CryoSeek(酷尋)做起點(diǎn),研究糖蛋白和糖生物學(xué)。此外,實(shí)驗室最近以及將來(lái)會(huì )多投預印本bioRxiv,因為全新的領(lǐng)域太需要合作,所以一有新發(fā)現就先放出來(lái),希望從糖質(zhì)鑒定、化學(xué)合成、生物學(xué)合成通路、糖蛋白纖維功能等多個(gè)方面建立廣泛的合作。
此前的兩項的關(guān)于CryoSeek(酷尋)的研究論文
2024年10月9日,顏寧、李張強等人在《美國國家科學(xué)院院刊》(PNAS)發(fā)表了題為:CryoSeek: A strategy for bioentity discovery using cryoelectron microscopy 的研究論文【2】。
CryoSeek的工作流程包括以下幾個(gè)步驟:1)從自然來(lái)源收集樣本;2)用過(guò)濾、濃縮等簡(jiǎn)單程序處理樣品;3a)執行標準冷凍樣品制備和冷凍電鏡數據采集,或3b)通過(guò)其他方法(例如宏基因組測序和質(zhì)譜分析)來(lái)表征樣品;4)冷凍電鏡數據處理;5)AI輔助自動(dòng)建模;6)結合步驟3b的其他生物信息學(xué)分析結果,根據其結構識別相應的生物實(shí)體。
首先,顏寧團隊使用冷凍電鏡(cryo-EM)對清華荷塘的濾過(guò)水樣進(jìn)行觀(guān)察分析,發(fā)現了豐富多樣的生物大分子,其中長(cháng)短、粗細不一的纖維狀結構在占據主導地位。然后,顏寧團隊通過(guò)三維重構獲得了多個(gè)纖維結構的高分辨率電鏡密度圖。
接下來(lái),利用清華大學(xué)張強鋒團隊開(kāi)發(fā)的基于A(yíng)I算法的CryoNet軟件進(jìn)行自動(dòng)模型搭建,獲得了兩種高度相似的螺旋纖維蛋白的三維結構,顏寧團隊將其命名為T(mén)LP-1a和TLP-1b,每一種直徑約為8 nm。
進(jìn)一步的生物信息學(xué)分析顯示,TLP-1a和TLP-1b這兩種纖維狀蛋白具有獨特的形狀和厚度,來(lái)自完全未知的物種。研究團隊認為,其很可能是某種細菌用于物質(zhì)傳遞和輔助運動(dòng)的菌毛。
總的來(lái)說(shuō),這項研究展示了結構生物學(xué)的范式轉變,之前的結構生物學(xué)總是應用于已知的物質(zhì),而現在,在蛋白質(zhì)序列和來(lái)源完全未知的情況下,完全基于高分辨率的結構測定實(shí)現了對未知生物實(shí)體的物質(zhì)鑒定和功能預測,使結構生物學(xué)成為探索完全未知物質(zhì)的驅動(dòng)力。
此外,該研究提出的CryoSeek策略還可以擴展到識別來(lái)自河流、海洋、雨滴的生物實(shí)體,甚至來(lái)自深海、熱液噴口甚至太空等極端環(huán)境的生物實(shí)體,從而有助于將結構生物學(xué)擴展到結構X學(xué)(Structural X-ology),例如結構病理學(xué)(Structural pathology)、結構生態(tài)學(xué)(Structural ecology)、結構考古學(xué)(Structural archeology)等。
2024年12月15日,顏寧、李張強等在預印本平臺 bioRxiv 發(fā)表了題為:The 8-nm spaghetti: well-structured glycans coating linear tetrapeptide repeats discovered from freshwater with CryoSeek 的研究論文【3】。
顏寧團隊之前開(kāi)發(fā)了一種名為CryoSeek(酷尋)的研究策略——使用冷凍電鏡(cryo-EM)從自然或內源性資源中識別未表征的全新生物實(shí)體。
在這項新研究中,研究團隊發(fā)現了一種高度糖基化的蛋白纖維——TLP-4b,其主要分子質(zhì)量歸因于一個(gè)厚聚糖殼。由于多個(gè)AI輔助軟件都無(wú)法自動(dòng)搭建出其蛋白結構,研究團隊進(jìn)行了人工手動(dòng)搭建,確定了其結構,3.3 分辨率的冷凍電鏡結構重建揭示了該糖蛋白纖維的唯一蛋白質(zhì)成分——直徑約為8 nm的四肽重復線(xiàn)性多肽鏈。每個(gè)四肽重復序列包含1個(gè)保守的3,4-二羥脯氨酸(diHyp)、1個(gè)絲氨酸或蘇氨酸,以及2個(gè)較少保守的氨基酸殘基組成。其中,3,4-二羥脯氨酸的3-OH與4-OH均高度O-糖基化,絲氨酸或蘇氨酸同樣存在O-糖基化。
在三維重構區段中,該纖維結構高度規則,其折疊形式完全由糖質(zhì)間的相互作用維持,并且由于高重復性,這些糖質(zhì)的組裝也是高度有序的。通過(guò)計算氨基酸和糖質(zhì)的比例發(fā)現,該纖維結構中糖質(zhì)的質(zhì)量占比達到了驚人的95%以上。
總的來(lái)說(shuō),該研究揭示了聚糖在糖綴合物結構折疊中的關(guān)鍵作用,并有助于理解生物圈中的碳/氮比值。該研究也進(jìn)一步證明了CryoSeek(酷尋)在發(fā)現完全未知的生物實(shí)體方面的能力,有望成為推動(dòng)一系列新研究的起點(diǎn)。
論文鏈接:
1. https://www.pnas.org/doi/10.1073/pnas.2423943122
2. https://www.pnas.org/doi/10.1073/pnas.2417046121
3. https://www.biorxiv.org/content/10.1101/2024.12.15.627649v1
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com