
蛋白質(zhì)是重要的生物大分子,在生物體內(nèi)發(fā)揮著廣泛的功能,了解蛋白質(zhì)的三維結(jié)構(gòu)對于闡明其功能和設(shè)計(jì)靶向藥物至關(guān)重要。人們通常使用X射線晶體學(xué)、核磁共振(NMR)光譜學(xué)和電子顯微鏡等實(shí)驗(yàn)技術(shù)來確定蛋白質(zhì)結(jié)構(gòu),但這些方法耗時(shí)長、技術(shù)難度大、成本高且適用性差。為此,科研人員開發(fā)了從頭預(yù)測蛋白質(zhì)結(jié)構(gòu)的方法——AB Initio,利用基于物理的算法從氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu),但其無法表征更大、更復(fù)雜的蛋白質(zhì)。
近年來,機(jī)器學(xué)習(xí)算法的快速發(fā)展顯著提高了蛋白質(zhì)結(jié)構(gòu)預(yù)測的速度,該領(lǐng)域最顯著的成就之一是DeepMind開發(fā)的AlphaFold 2(AF2)模型,其基于深度神經(jīng)網(wǎng)絡(luò)可從氨基酸序列中預(yù)測基態(tài)蛋白質(zhì)結(jié)構(gòu),耗時(shí)短并具有較高的準(zhǔn)確性,為藥物發(fā)現(xiàn)和基礎(chǔ)研究開辟了新的道路、對人類健康產(chǎn)生了顯著影響。但一系列研究發(fā)現(xiàn),AF2算法在預(yù)測替代蛋白質(zhì)構(gòu)象和序列變異影響方面能力有限。
近期,美國布朗大學(xué)分子和細(xì)胞生物學(xué)與生物化學(xué)系的科研人員在Nature Communications上發(fā)表了題為“High-throughput prediction of protein conformational distributions with subsampled AlphaFold2”的文章。研究團(tuán)隊(duì)提出了一種使用AlphaFold 2通過亞采樣多序列比對直接預(yù)測不同蛋白質(zhì)構(gòu)象相對種群的創(chuàng)新方法,并對兩個(gè)具有截然不同可用序列數(shù)據(jù)的蛋白質(zhì)進(jìn)行核磁共振實(shí)驗(yàn),即Abl1激酶和粒細(xì)胞-巨噬細(xì)胞集落刺激因子(GM-CSF),該方法以超80%的準(zhǔn)確率預(yù)測了相對狀態(tài)種群的變化。此外,亞采樣方法在用于定性預(yù)測突變或進(jìn)化對蛋白質(zhì)構(gòu)象分布和高密度狀態(tài)的影響時(shí)效果最好。綜上,該方法高效、迅速且成本較低,能有效預(yù)測蛋白質(zhì)構(gòu)象的相對種群,甚至可達(dá)到單點(diǎn)突變的分辨率,有望成為藥理學(xué)、實(shí)驗(yàn)結(jié)果分析和預(yù)測進(jìn)化的有用工具。
文章發(fā)表在Nature Communications
亞采樣AF2工作流程
近年來,已有多個(gè)研究小組觀察到,采用不同參數(shù)和多序列比對(MSA)深度的AF2方法能歐僅基于序列數(shù)據(jù)預(yù)測構(gòu)象變化,這些替代AF2框架的共同原理是對MSA進(jìn)行亞采樣,以調(diào)節(jié)不同結(jié)構(gòu)域的協(xié)同進(jìn)化信號(hào)。從主MSA中隨機(jī)選擇任意數(shù)量的序列(由max_seq參數(shù)定義)(目標(biāo)序列始終被選中),其余序列使用Hamming距離圍繞每個(gè)選定序列聚類;AF2使用聚類中心和聚類中長度為extra_seq的樣本進(jìn)行推斷(圖1)。先前工作表明,在默認(rèn)值的基礎(chǔ)上顯著降低max_seq值和extra_seq值,可實(shí)現(xiàn)對一系列模型系統(tǒng)的集成預(yù)測。
圖1:AF2的MSA聚類啟發(fā)式算法。
基于上述觀察結(jié)果,研究團(tuán)隊(duì)系統(tǒng)測試了不同AF2參數(shù)組合預(yù)測Abl1激酶核心結(jié)構(gòu)的準(zhǔn)確性。據(jù)悉,Abl1有三種不同的主要構(gòu)象:在溶液中,Abl1主要以活動(dòng)(基態(tài))狀態(tài)存在,在極少數(shù)情況下會(huì)轉(zhuǎn)換為非活性狀態(tài)1(I1),然后轉(zhuǎn)換為非活性狀態(tài)2(I2);從基態(tài)到I1狀態(tài)的變化較小,但從I1到I2狀態(tài)的轉(zhuǎn)變涉及到相當(dāng)大的骨架重排。
為使用AF2生成完整的Abl1構(gòu)象集合,研究團(tuán)隊(duì)首先通過JackHMMR算法在野生型Abl1激酶核心(殘基229-515)上編譯了一個(gè)涵蓋60萬條序列的廣泛MSA;為提高結(jié)果的統(tǒng)計(jì)能力,為每個(gè)測試運(yùn)行了32個(gè)具有獨(dú)立種子的預(yù)測,并在推斷過程中啟用了dropout,以便從模型的不確定性中取樣;所有其他參數(shù)保留默認(rèn)設(shè)置。
結(jié)果顯示,當(dāng)max_seq:extra_seq值為256:512時(shí),激活環(huán)構(gòu)象的結(jié)果最為多樣化;重要的是,AF2預(yù)測的激活環(huán)構(gòu)象集合分布于Abl1從基態(tài)到I2態(tài)的轉(zhuǎn)變過程中。為進(jìn)一步檢驗(yàn)AF2是否真正預(yù)測了沿轉(zhuǎn)變過程的構(gòu)象,研究團(tuán)隊(duì)將160個(gè)AF2 Abl1的亞采樣預(yù)測集合與從溶液中apo Abl1的增強(qiáng)采樣分子動(dòng)力學(xué)(MD)模擬生成的I1到I2軌跡中提取的代表性快照進(jìn)行比較,這一比較的代表性結(jié)果如圖4所示。結(jié)果顯示,AF2成功預(yù)測了Abl1激酶基態(tài)的相對種群;激活環(huán)轉(zhuǎn)變的覆蓋范圍較大,表明使用AF2對中間狀態(tài)進(jìn)行采樣,有可能揭示其路徑和機(jī)制。
圖2:通過Abl1激酶核心的增強(qiáng)采樣MD模擬和代表性AF2預(yù)測得到的I1、I2軌跡比較。
接下來,研究團(tuán)隊(duì)研究了AF2在無下游MD模擬的情況下預(yù)測構(gòu)象分布的潛力。已知野生型Src激酶占據(jù)基態(tài)的頻率顯著高于Abl1,如果亞采樣AF2的假設(shè)是正確的,該方法將輸出基態(tài)Src比基態(tài) Abl1顯著更多的預(yù)測。為此,研究團(tuán)隊(duì)使用與Abl1相同的流程為Src激酶核心(殘基235-497)序列構(gòu)建了一個(gè)大的MSA,并將其作為輸入運(yùn)行亞采樣AF2,檢測了Src激酶核心基態(tài)和I2態(tài)的相對種群。
結(jié)果顯示,絕大多數(shù)來自亞采樣AF2的Src激酶核心預(yù)測都處于基態(tài),預(yù)測的相對狀態(tài)種群為97%,而Abl1為89%。有趣的是,Src預(yù)測中沒有一個(gè)被發(fā)現(xiàn)處于I2狀態(tài),這表明在使用AF2預(yù)測相對狀態(tài)種群時(shí)存在分辨率限制:在目前的實(shí)現(xiàn)中,具有較低占用率的構(gòu)象(如Src中的I2)可能會(huì)被算法遺漏。雖然存在分辨率問題,但亞采樣AF2正確地預(yù)測了Abl1和Src激酶核心之間構(gòu)象分布的差異,這證明了其作為預(yù)測相對狀態(tài)種群的高通量方法的前景。研究團(tuán)隊(duì)還使用亞采樣AF2方法對Anc-AS激酶核心(殘基1-263)進(jìn)行預(yù)測,并將結(jié)果與Abl1和Src病例進(jìn)行比較。結(jié)果顯示,預(yù)測的Anc-AS有93%的時(shí)間處于基態(tài),介于Src(97%)和Abl1(89%)的預(yù)測頻率之間,與預(yù)期結(jié)果一致。
蛋白質(zhì)中的許多點(diǎn)突變被認(rèn)為可通過改變構(gòu)象和相對狀態(tài)種群從而導(dǎo)致不同的表型(如耐藥性),為此研究團(tuán)隊(duì)?wèi)?yīng)用亞采樣AF2對一系列Abl1單突變體和雙突變體進(jìn)行預(yù)測,這些突變體對基態(tài)和I2狀態(tài)的相對種群有明顯的特征和顯著影響。結(jié)果顯示,亞采樣AF2準(zhǔn)確預(yù)測了相對狀態(tài)種群及其方向的變化,準(zhǔn)確率超80%。
圖3:亞采樣AF2預(yù)測沿Src到Abl1進(jìn)化途徑和Abl1耐藥突變的蛋白質(zhì)非基態(tài)構(gòu)象百分比。
考慮到對Abl1預(yù)測的成功,研究團(tuán)隊(duì)試圖檢驗(yàn)?zāi)芊裼酶俚男蛄袛?shù)據(jù)獲得類似的預(yù)測結(jié)果,并使用人類GMCSF的序列重復(fù)了上述預(yù)測流程(圖4)。GMCSF是一種分子量為14 kDa的單體糖蛋白,在先天性免疫中發(fā)揮核心作用,可刺激多種細(xì)胞對病原體做出應(yīng)答。GMCSF中N端螺旋A的動(dòng)態(tài)變化可形成兩種構(gòu)象:一是封閉構(gòu)象(基態(tài)),這是晶體堆積時(shí)最穩(wěn)定的GMCSF構(gòu)象;二是開放構(gòu)象,可與肝素和其他免疫系統(tǒng)調(diào)節(jié)劑進(jìn)行結(jié)合。
圖4:該研究預(yù)測的兩個(gè)蛋白質(zhì)系統(tǒng)的構(gòu)象集合。
研究團(tuán)隊(duì)使用野生型人類GMCSF序列作為查詢和JackHMMR方法構(gòu)建了MSA(112個(gè)序列)后,確定了導(dǎo)致GMCSF構(gòu)象最大多樣性的max_seq和extra_seq參數(shù),并預(yù)測了野生型GMCSF的結(jié)構(gòu)。為評估突變?nèi)绾斡绊慓MCSF的構(gòu)象分布,研究團(tuán)隊(duì)檢測了每個(gè)預(yù)測的GMCSF結(jié)構(gòu)的特定主鏈原子位置的RMSD(圖5)。
結(jié)果顯示,亞采樣AF2方法準(zhǔn)確預(yù)測了突變體H15/83和H87骨架重排幅度的差異;與H87的突變相比,H15和H83的突變在構(gòu)象分布方面引起的變化更大;并正確估計(jì)了突變體H83R和H83N對c端構(gòu)象的顯著影響,同時(shí)準(zhǔn)確預(yù)測了H83N、H83Y和H87三種突變體對殘基80-90 RMSD分布的影響。特別地,研究團(tuán)隊(duì)還在GMCSF中發(fā)現(xiàn)了一種與基態(tài)和開放態(tài)顯著不同的替代構(gòu)象A1,在該替代構(gòu)象中,C螺旋與B螺旋交換了位置,螺旋B占據(jù)了與肝素結(jié)合的凹槽。
圖5:GMCSF突變的亞采樣AF2結(jié)果。
綜上所述,對于Abl1激酶,亞采樣AF2定性預(yù)測突變了對激酶核心活性狀態(tài)種群的積極和消極影響,以及激酶核心活性到非活性轉(zhuǎn)變中的大多數(shù)激活環(huán)中間狀態(tài);對于GMCSF,該方法預(yù)測了其構(gòu)象集合在響應(yīng)點(diǎn)突變時(shí)的變化,揭示亞采樣AF2解碼構(gòu)象變化信號(hào)的卓越能力?傊,這些結(jié)果突出了AF2在預(yù)測蛋白質(zhì)構(gòu)象變化方面的強(qiáng)大且尚未開發(fā)的潛力,這將對生物物理學(xué)和藥物發(fā)現(xiàn)領(lǐng)域產(chǎn)生重大影響。
論文原文:
Monteiro da Silva, G., Cui, J.Y., Dalgarno, D.C. et al. Author Correction: High-throughput prediction of protein conformational distributions with subsampled AlphaFold2. Nat Commun 15, 3089 (2024). https://doi.org/10.1038/s41467-024-47504-0
來源:測序中國
郵政編碼:200052 電話:021-63800152 傳真:021-63800151 京ICP備15010734號(hào)-10 技術(shù):網(wǎng)至普網(wǎng)站建設(shè)