藥物發(fā)現和開(kāi)發(fā)是一項既費力又費錢(qián)且耗時(shí)的復雜過(guò)程。從靶點(diǎn)識別到藥物上市,整個(gè)過(guò)程可能長(cháng)達12年,耗資超過(guò)25億美元,但成功率卻不足10%。盡管近年來(lái)技術(shù)取得了顯著(zhù)進(jìn)步,但藥物開(kāi)發(fā)的成功率依然很低,成本高昂。因此,如何提高藥物研發(fā)效率、降低成本成為業(yè)界亟待解決的問(wèn)題。機器學(xué)習(Machine Learning,ML)技術(shù)的發(fā)展,尤其是深度學(xué)習(Deep Learning,DL)的興起,為藥物研發(fā)提供了新的機遇。
2024年7月19日,加拿大麥克馬斯特大學(xué)的研究人員在 Nature Chemical Biology 期刊發(fā)表了題為:Machine learning in preclinical drug discovery 的文章,討論了在藥物發(fā)現的臨床前階段整合機器學(xué)習方法的現狀和未來(lái)前景,重點(diǎn)關(guān)注其在不同疾病領(lǐng)域的應用,以加速初始藥物發(fā)現、作用機制(MOA)闡明和化學(xué)性質(zhì)優(yōu)化。
新藥研發(fā)涉及多個(gè)復雜環(huán)節,包括靶點(diǎn)識別、化合物篩選、活性驗證、作用機制闡明及臨床前和臨床試驗等。傳統的藥物篩選方法,如高通量篩選(HTS),盡管可以大規模測試化合物庫,但成本高昂且耗時(shí)。此外,從HTS中篩選出的化合物往往需要在后續階段經(jīng)過(guò)復雜的驗證和優(yōu)化,進(jìn)一步增加了研發(fā)周期和成本。據統計,從候選藥物進(jìn)入臨床試驗到最終上市的成功率僅為10%左右,大部分候選藥物在臨床試驗階段因缺乏療效、毒性過(guò)高或不符合市場(chǎng)需求等原因而失敗。
機器學(xué)習,尤其是深度學(xué)習,具有從大規模復雜數據集中自動(dòng)提取特征并進(jìn)行預測的能力。隨著(zhù)生物和化學(xué)數據的不斷積累,機器學(xué)習技術(shù)在藥物研發(fā)中的應用前景日益廣闊。與傳統方法相比,機器學(xué)習具有以下優(yōu)勢:
1、高效篩選:基于機器學(xué)習的虛擬篩選技術(shù)可以快速評估大規模化合物庫,從而顯著(zhù)提高篩選效率。
2、精準預測:通過(guò)訓練大量數據,機器學(xué)習模型能夠預測化合物的生物活性、毒性、藥代動(dòng)力學(xué)等關(guān)鍵參數,為藥物優(yōu)化提供指導。
3、闡明作用機制:結合蛋白質(zhì)結構預測技術(shù),機器學(xué)習有助于揭示化合物的作用機制,為基于結構的藥物設計提供理論依據。
機器學(xué)習在藥物研發(fā)中的應用
在這篇文章中,作者概述了各種機器學(xué)習方法在一系列疾病領(lǐng)域的小分子療法臨床前藥物發(fā)現中的應用。可以分為以下三個(gè)藥物發(fā)現步驟:
圖1:機器學(xué)習在藥物發(fā)現中的應用
第1步:靶點(diǎn)識別
在藥物研發(fā)的初期階段,首先需要確定潛在的藥物靶點(diǎn)。機器學(xué)習技術(shù)在這一階段的應用主要體現在虛擬篩選和分子特征化上。
傳統的HTS方法成本高、耗時(shí)長(cháng),且命中率較低。以機器學(xué)習為指導的虛擬篩選技術(shù)提供了一種更為高效的替代方案。虛擬篩選通過(guò)構建ML模型,對化合物庫中的分子進(jìn)行快速評估,從而篩選出具有潛在生物活性的化合物。例如,深度定量結構-活性關(guān)系模型(DQSAR)利用深度學(xué)習模型量化結構-活性關(guān)系,改進(jìn)了大型化學(xué)庫的虛擬篩選效果。
圖2:ML引導的虛擬篩查
分子特征化是虛擬篩選的關(guān)鍵步驟。傳統的分子表征方法,如指紋向量,往往無(wú)法捕捉分子連通性的上下文細節。近年來(lái),基于圖神經(jīng)網(wǎng)絡(luò )(GNN)的方法,如有向信息傳遞神經(jīng)網(wǎng)絡(luò )(D-MPNN),通過(guò)結合任務(wù)和上下文感知分子嵌入,顯著(zhù)提高了分子特征化的準確性。這些模型在抗菌藥物的發(fā)現中取得了顯著(zhù)成果,如鹵化霉素和阿巴霉素的發(fā)現。
第2步:MOA闡明
在確定了潛在藥物后,需要詳細闡明其作用機制(MOA)。MOA闡明涉及復雜的生物實(shí)驗和數據分析,機器學(xué)習技術(shù)在這一階段同樣發(fā)揮著(zhù)重要作用。
蛋白質(zhì)結構預測是MOA闡明的基礎。近年來(lái),基于深度學(xué)習的蛋白質(zhì)結構預測方法取得了突破性進(jìn)展。例如,AlphaFold(AF2)通過(guò)多序列比對(MSA)和深度學(xué)習技術(shù),成功預測了多種蛋白質(zhì)的三維結構。盡管AF2在某些復雜結構預測上仍存在局限性,但其準確性已足以支持基于結構的藥物設計。
圖3:AF2用于MOA說(shuō)明
蛋白質(zhì)對接技術(shù)通過(guò)模擬配體與受體的相互作用,預測結合親和力和結合模式。然而,傳統對接算法計算量大、耗時(shí)長(cháng)。基于深度學(xué)習的對接技術(shù),如DiffDock,通過(guò)將對接過(guò)程轉化為生成建模問(wèn)題,顯著(zhù)提高了對接效率。此外,擴散生成模型(DGM)也被應用于蛋白質(zhì)設計任務(wù),如RoseTTAFold diffusion(RFdiffusion),能夠生成具有特定功能特性的蛋白質(zhì)。
圖4:MOA闡明的擴散模型
第3步:轉化研究
在臨床前藥物發(fā)現的后期階段,主要目標是將有前景的分子優(yōu)化為更可行的候選藥物。機器學(xué)習算法在這一階段的應用主要體現在多屬性?xún)?yōu)化和藥物特性預測上。
傳統的候選藥物優(yōu)化方法依賴(lài)于結構-活性關(guān)系研究,通過(guò)修改核心子結構來(lái)優(yōu)化藥物的各項特性。機器學(xué)習算法通過(guò)預測分子的類(lèi)藥物特性和毒性,為候選藥物的優(yōu)化提供了更為全面的指導。例如,利用ML模型預測溶解度、口服生物利用度、毒性和hERG安全性等參數,可以在藥物發(fā)現的早期階段就篩選出具有有利臨床特性的候選藥物。
藥物的溶解度、ADMET特性等是決定其臨床成功與否的關(guān)鍵因素。機器學(xué)習算法在這些特性的預測中表現出色。例如,利用支持向量機(SVM)、多層感知器(MLP)等模型預測分子的log(P)值(親脂性指標),可以顯著(zhù)提高預測的準確性。此外,通過(guò)訓練圖卷積神經(jīng)網(wǎng)絡(luò )等模型預測hERG毒性等關(guān)鍵毒性參數,可以在藥物發(fā)現的早期階段就排除潛在的毒性風(fēng)險。
結論和展望
隨著(zhù)ML技術(shù)的不斷發(fā)展及其在藥物研發(fā)中的廣泛應用,未來(lái)的藥物發(fā)現過(guò)程將更加高效、精準。然而,要充分發(fā)揮ML技術(shù)的潛力,還需要解決以下幾個(gè)關(guān)鍵問(wèn)題:
1、數據質(zhì)量與數量:高質(zhì)量的大規模數據集是訓練高性能ML模型的基礎。因此,需要不斷積累和完善生物和化學(xué)數據資源。
3、跨學(xué)科合作:藥物研發(fā)涉及生物學(xué)、化學(xué)、計算機科學(xué)等多個(gè)領(lǐng)域。加強跨學(xué)科合作有助于充分發(fā)揮各自領(lǐng)域的優(yōu)勢,共同推動(dòng)藥物研發(fā)的進(jìn)步。
機器學(xué)習技術(shù)在藥物研發(fā)中的應用為傳統方法帶來(lái)了革命性的變革。通過(guò)整合ML技術(shù),可以顯著(zhù)提高藥物篩選的效率、準確性和成功率。未來(lái)隨著(zhù)數據資源的不斷豐富和算法技術(shù)的不斷進(jìn)步,機器學(xué)習在藥物研發(fā)中的應用前景將更加廣闊。我們有理由相信,在不久的將來(lái),機器學(xué)習技術(shù)將成為藥物研發(fā)不可或缺的一部分,為人類(lèi)健康事業(yè)作出更大的貢獻。
參考資料:
合作咨詢(xún)
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com