
在我們的這個小分子藥物預(yù)測工作(RNAmol)中,以及之前的小RNA藥物預(yù)測工作(OligoFormer)中,我們都嘗試用一個簡單的、RNA特有的語法(例如A-U,G-C,G-U)去表征RNA分子,而沒有用到物理學(xué)意義上的三維結(jié)構(gòu)模型或全原子模型。這種特異而簡單的語法,不僅在上述工作中取得了超出預(yù)期的結(jié)果,也讓我們更加相信一個在RNA領(lǐng)域耳熟能詳?shù)膶W(xué)術(shù)假說:生命的起源是RNA的世界。這個看似簡單的RNA語言或許具備了生命起源甚至宇宙起源的基本要素:信息的復(fù)制、轉(zhuǎn)遞和變異。希望我們的這些嘗試和實踐,不僅能對藥物設(shè)計領(lǐng)域有所啟發(fā),也能對生命科學(xué)和計算科學(xué)的其他方向的研究起到拋磚引玉的作用。
近日,清華大學(xué)生命學(xué)院魯志課題組和合作者在Nature Computational Science發(fā)表了題為“RNA-ligand interaction scoring via data perturbation and augmentation modeling”的研究論文[1]。該研究突破了傳統(tǒng)藥物設(shè)計方法依賴三維結(jié)構(gòu)的局限,針對RNA結(jié)構(gòu)匱乏的現(xiàn)實,提出了一種基于序列輸入的RNA-小分子相互作用AI預(yù)測模型RNAsmol。該模型為靶向RNA的小分子藥物研發(fā)提供了高效計算工具,為不依賴三維結(jié)構(gòu)的人工智能輔助藥物設(shè)計提供了新的方案和思路。
目前絕大多數(shù)的臨床藥物以蛋白質(zhì)作為靶標(biāo),然而,許多蛋白質(zhì)由于缺乏合適的結(jié)構(gòu)口袋,常被認(rèn)為是“難成藥”或“不可成藥”的。在人類的2萬個左右的蛋白編碼基因(占人類基因組總長度的1.5%左右)中,大約有10%-15%與疾病直接相關(guān);而在這些基因中,據(jù)估計僅有700-900 個的蛋白產(chǎn)物是可以成藥的(僅占人類基因組總長度的0.05%左右)[2,3]。另一方面,人類基因組的約70%甚至更多都會被轉(zhuǎn)錄成RNA,其中大多是非編碼RNA (ncRNA)。因此,近年開始有越來越多的研究者試圖將RNA作為藥物靶標(biāo),并初步證明了這一策略的可行性[4-6]。新藥研發(fā)成本昂貴且周期漫長,使用計算機輔助藥物設(shè)計能夠極大地降低研發(fā)成本,助力并加速靶向RNA的小分子藥物的研發(fā)進程。然而,由于公開的RNA-小分子互作及已知的高分辨率RNA結(jié)構(gòu)數(shù)據(jù)匱乏,開發(fā)數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)模型仍面臨諸多挑戰(zhàn)。
魯志實驗室長期致力于RNA生物信息學(xué)研究,在RNA-siRNA/shRNA、RNA-protein、RNA-ligand的計算設(shè)計上積累了大量科研經(jīng)驗[7-13]。在這項最新發(fā)表的工作中,作者利用數(shù)據(jù)擾動和增廣策略針對RNA-小分子結(jié)合開發(fā)深度學(xué)習(xí)模型,搭建了用于RNA-小分子互作打分的AI預(yù)測方法RNAsmol。與其他計算方法相比,RNAsmol不僅具有更優(yōu)異的預(yù)測性能,還具備廣泛應(yīng)用于多種藥物篩選場景的潛力,對很多沒有三維結(jié)構(gòu)信息的RNA分子也依然可以進小分子藥物預(yù)測。
1.基于數(shù)據(jù)擾動和增廣的深度學(xué)習(xí)框架RNAsmol
該工作提出的RNAsmol框架,是一種結(jié)合數(shù)據(jù)擾動和數(shù)據(jù)增廣策略的深度學(xué)習(xí)方法。在該框架中,數(shù)據(jù)擾動通過對訓(xùn)練數(shù)據(jù)進行隨機擾動模擬真實環(huán)境中的數(shù)據(jù)多樣性,從而幫助模型更好地學(xué)習(xí)到RNA-小分子結(jié)合的規(guī)律。而數(shù)據(jù)增廣則通過在已知互作的基礎(chǔ)上生成虛擬的負(fù)樣本和潛在的未標(biāo)記樣本,增加模型對未知空間的識別能力。這種策略不僅提高了模型的魯棒性,還幫助其更好地捕捉到不同類型的相互作用模式。此外,該模型結(jié)合基于圖的分子特征表示方法和圖擴散卷積模塊對藥物小分子進行結(jié)構(gòu)建模,通過基于注意力機制的特征融合模塊在多個模態(tài)下對靶標(biāo)和藥物分子特征進行加權(quán)整合,最終實現(xiàn)RNA靶標(biāo)與小分子之間的打分預(yù)測。
2.RNAsmol在數(shù)據(jù)擾動空間中能準(zhǔn)確分類RNA-小分子相互作用
在數(shù)據(jù)擾動空間中,RNAsmol通過擾動策略有效地減少了真實負(fù)樣本與未知互作空間之間的偏差。該策略通過對已知的負(fù)樣本進行擾動,生成潛在的“負(fù)例”樣本,同時通過數(shù)據(jù)增廣技術(shù)擴展已知的正例和負(fù)例樣本的邊界。這使得模型能夠更好地理解RNA與小分子之間的結(jié)合規(guī)律,尤其是在數(shù)據(jù)不均衡的情況下,避免了模型偏向已知的正負(fù)樣本。實驗結(jié)果表明,RNAsmol在10折交叉驗證中的表現(xiàn)超過了傳統(tǒng)方法,平均AUROC(曲線下面積)指標(biāo)提升約8%,同時在未見樣本的評估中,性能提升了約16%。這一優(yōu)勢證明了該方法在稀疏數(shù)據(jù)場景中的有效性,進一步推動了RNA-小分子結(jié)合預(yù)測的計算研究。
3.RNAsmol作為虛擬篩選工具能準(zhǔn)確區(qū)分誘餌分子與真實配體
在虛擬篩選的應(yīng)用中,RNAsmol展現(xiàn)出獨特的優(yōu)勢。與傳統(tǒng)依賴于結(jié)構(gòu)信息的篩選方法不同,RNAsmol完全基于RNA的序列信息進行預(yù)測。因為許多與疾病相關(guān)的RNA靶點(如lncRNA)的三維結(jié)構(gòu)數(shù)據(jù)常常難以獲得,RNAsmol能夠彌補這一數(shù)據(jù)缺口實現(xiàn)對這些靶點的預(yù)測篩選。實驗結(jié)果表明,RNAsmol在區(qū)分誘餌分子與真實配體時,成功將排序得分提高了約30%。因此,RNAsmol在各類RNA靶向藥物篩選中具有廣泛的適用性,通過該方法可以更加高效地篩選潛在的藥物分子。
總的來說,該研究通過探究基于數(shù)據(jù)擾動和增廣的深度學(xué)習(xí)訓(xùn)練策略在數(shù)據(jù)匱乏場景的應(yīng)用,為靶向RNA藥物研發(fā)的計算建模提供了新思路。
清華大學(xué)生命學(xué)院魯志副教授與南昌大學(xué)徐振江教授為論文通訊作者。清華大學(xué)已出站博士后(現(xiàn)哈爾濱工業(yè)大學(xué)副研究員)馬洪麗為文章第一作者。本課題得到來自國家重點研發(fā)計劃、國家自然科學(xué)基金、“生物信息學(xué)”教育部重點實驗室、“綠色生物制造”全國重點實驗室、清華大學(xué)精準(zhǔn)醫(yī)療研究院、Bayer制藥公司等經(jīng)費的資助支持。
參考文獻:
0. RNA: 掌控生命后臺 《環(huán)球科學(xué)》(Scientific American) 2024年7月刊封面文章
1.Ma, H., et al., RNA-ligand interaction scoring via data perturbation and augmentation modeling. Nature Computational Science, 2025
2.Warner, K.D., et al., Principles for targeting RNA with drug-like small molecules. Nature Review Drug Discovry, 2018
3.Knox, C., et al., DrugBank 6.0: the DrugBank Knowledgebase for 2024. Nucleic Acids Res, 2024
4. Sheridan, C., First small-molecule drug targeting RNA gains momentum. Nature Biotechnology, 2021
5. Howe, J.A., et al., Selective small-molecule inhibition of an RNA structural element. Nature, 2015
6.Aguilar, R., et al., Targeting Xist with compounds that disrupt RNA structure and X inactivation. Nature, 2022
7.Bai, Y., et al., OligoFormer: an accurate and robust prediction method for siRNA design. Bioinformatics, 2024
8.Zhao, W., et al., POSTAR3: an updated platform for exploring post-transcriptional regulation coordinated by RNA-binding proteins. Nucleic Acids Res, 2022
9.Li, Y., et al., Identification of high-confidence RNA regulatory elements by combinatorial classification of RNA-protein binding sites. Genome Biology, 2017
10.Tan, X., et al., Tiling genomes of pathogenic viruses identifies potent antiviral shRNAs and reveals a role for secondary structure in shRNA efficacy. PNAS, 2012
11.Tan, X., et al., Systematic identification of synergistic drug pairs targeting HIV. Nature Biotechnology, 2012
12.Lu, Z.J. and D.H. Mathews, OligoWalk: an online siRNA design tool utilizing hybridization thermodynamics. Nucleic Acids Res, 2008
13.Lu, Z.J. and D.H. Mathews, Efficient siRNA selection using hybridization thermodynamics. Nucleic Acids Res, 2008
原文鏈接:
https://www.nature.com/articles/s43588-025-00820-x
郵政編碼:200052 電話:021-63800152 傳真:021-63800151 京ICP備15010734號-10 技術(shù):網(wǎng)至普網(wǎng)站建設(shè)