
三維基因組最近幾年火爆了!為什么?原因很簡(jiǎn)單,因?yàn)榛蚪M的空間結(jié)構(gòu)太重要了!
從基因轉(zhuǎn)錄到DNA的復(fù)制和損傷修復(fù)等,高等真核生物的核內(nèi)活動(dòng)基本上都和基因組的三維空間結(jié)構(gòu)息息相關(guān),所以人們非常急切地想了解他們所關(guān)心的物種或細(xì)胞在其關(guān)注的狀態(tài)下,基因組的三維空間結(jié)構(gòu)特征是怎樣的。傳統(tǒng)研究基因組的空間結(jié)構(gòu)可以通過(guò)影像學(xué)的方法,比如FISH。隨著組學(xué)技術(shù)的逐步發(fā)展,基于染色質(zhì)構(gòu)象捕獲技術(shù)(3C)的各種技術(shù)變體得到了迅猛的發(fā)展,其中比較常見(jiàn)的技術(shù)就是Hi-C和ChIA-PET。這些技術(shù)也引爆了3D基因組學(xué)研究領(lǐng)域。其中,Hi-C是無(wú)偏性的全基因組檢測(cè)染色質(zhì)相互作用,但是它分辨率相對(duì)比較低,測(cè)序量要求高。ChIA-PET針對(duì)特定的介導(dǎo)蛋白,具有高分辨率、測(cè)序量較低的特點(diǎn),但是技術(shù)復(fù)雜、對(duì)初始的細(xì)胞數(shù)量要求很高,目前應(yīng)用沒(méi)有Hi-C廣泛。
由于上述技術(shù)復(fù)雜度和數(shù)據(jù)分辨率之間的矛盾,3D基因組學(xué)的研究,還難以在類似精準(zhǔn)醫(yī)學(xué)人群隊(duì)列研究中大規(guī)模展開(kāi),也難以對(duì)極少量細(xì)胞的樣本得到高分辨率的數(shù)據(jù)。尤其是對(duì)于單細(xì)胞Hi-C來(lái)說(shuō),在目前的分辨率水平下,在單個(gè)細(xì)胞的基因組中是否存在特定的拓?fù)浣Y(jié)構(gòu)域(TAD)都還存在爭(zhēng)議。如果有一種方法,以能夠低成本、快速的從極低分辨率Hi-C數(shù)據(jù)中獲得高分辨率的染色質(zhì)空間結(jié)構(gòu),就有望解決上述難題。
近日,中國(guó)科學(xué)院北京基因組研究所的張治華研究員團(tuán)隊(duì)及其合作者連續(xù)發(fā)表了兩篇重磅論文,分別利用了低分辨率的Hi-C結(jié)合其他的表觀組數(shù)據(jù)去預(yù)測(cè)高分辨率的TAD和相互作用(loop)的方法,使得在大樣本中,快速、低成本獲得染色質(zhì)高精度結(jié)構(gòu)信息成為一種可能。
第一種方法為張治華團(tuán)隊(duì)和中國(guó)科學(xué)院軟件研究所李昂生研究員團(tuán)隊(duì)合作的成果。該方法基于李昂生團(tuán)隊(duì)之前發(fā)展的結(jié)構(gòu)信息熵理論,應(yīng)用低分辨率的Hi-C預(yù)測(cè)高分辨率TAD。張治華、李昂生團(tuán)隊(duì)創(chuàng)造性地把Hi-C數(shù)據(jù)看作是一個(gè)相互連接的網(wǎng)絡(luò)。基于此,他們開(kāi)發(fā)了稱之為deDoc的算法。相關(guān)論文于2018年8月15日在線的發(fā)表于《自然·通訊》(Nature Communications)期刊上。
deDoc的兩個(gè)重要特征,使得它顯著的區(qū)別于當(dāng)前其他方法。第一,deDoc不需要對(duì)數(shù)據(jù)歸一化。也就是說(shuō),對(duì)于Hi-C數(shù)據(jù),deDoc可以直接用原始測(cè)序數(shù)據(jù)。這一特征是非常重要的,因?yàn)檎_的歸一化方法對(duì)其他的軟件來(lái)說(shuō)十分關(guān)鍵,不恰當(dāng)?shù)臍w一化往往會(huì)得到糟糕甚至是錯(cuò)誤的結(jié)果,而且歸一化原始數(shù)據(jù)耗時(shí)可觀。而對(duì)于deDoc來(lái)說(shuō)歸一化是完全沒(méi)有必要的,這使得分析速度大大加快。第二,deDoc的高精度預(yù)測(cè)能力對(duì)數(shù)據(jù)總量的依賴非常低。測(cè)試發(fā)現(xiàn),甚至只要少于1%的Rao et al 2014 的1kb分辨率數(shù)據(jù),就可以獲得充分好的染色質(zhì)結(jié)構(gòu)的預(yù)測(cè)。他們進(jìn)一步測(cè)試了deDoc在單細(xì)胞數(shù)據(jù)中的功效,驚訝的發(fā)現(xiàn),只要把低至十個(gè)單細(xì)胞Hi-C數(shù)據(jù)聚合在一起,就可以很清晰的鑒定到類似拓?fù)浣Y(jié)構(gòu)域的結(jié)構(gòu)。這說(shuō)明盡管對(duì)于單個(gè)細(xì)胞來(lái)說(shuō),我們?nèi)匀粺o(wú)法確切的知道是否真的存在TAD結(jié)構(gòu), 但是我們可以肯定的說(shuō),這種域結(jié)構(gòu)是非常關(guān)鍵的,以至于只需要少到十個(gè)細(xì)胞就能夠涌現(xiàn)出域結(jié)構(gòu)。這一事實(shí)對(duì)我們理解染色質(zhì)結(jié)構(gòu)在細(xì)胞群體中的構(gòu)成是有幫助的。最后,張治華、李昂生團(tuán)隊(duì)還發(fā)現(xiàn)可以用所謂的一維信息熵去確定任何一套Hi-C的最優(yōu)分辨率大小,也就是binsize。在傳統(tǒng)的方法中,人們是通過(guò)控制Hi-C連接矩陣中非零數(shù)元素的比例這一主觀的方法來(lái)確定binsize。而利用信息熵,他們發(fā)現(xiàn)使得一維信息熵極小值的binsize,對(duì)于數(shù)據(jù)分析來(lái)說(shuō)是最可靠的。這是第一個(gè)定量確定合適Hi-C分辨率的方法。由于deDoc的這兩個(gè)重要特征,使得deDoc可以成為在大的人群隊(duì)列以及針對(duì)極低量細(xì)胞樣本進(jìn)行三維基因組研究的重要工具。
第二種方法是張治華團(tuán)隊(duì)開(kāi)發(fā)的CISD_loop方法。deDoc可以識(shí)別拓?fù)浣Y(jié)構(gòu)域,但是對(duì)更精細(xì)的結(jié)構(gòu)比如染色質(zhì)之間的相互作用,則需要引入新的方法。真核生物的核小體在基因組上的排布是不均勻的。東南大學(xué)的孫嘯教授曾經(jīng)報(bào)道過(guò)不同的轉(zhuǎn)錄因子結(jié)合位點(diǎn)附近的核小李排布存在不同的特征。人們很早也就知道蛋白質(zhì)的結(jié)合可以在DNA上形成一種類似于障礙物的效果,使得在進(jìn)行隨機(jī)運(yùn)動(dòng)的核小體在障礙物附近形成統(tǒng)計(jì)上相對(duì)比較穩(wěn)定的排布結(jié)構(gòu);谶@兩個(gè)觀測(cè),張治華團(tuán)隊(duì)猜測(cè)染色質(zhì)的相互作用也可能會(huì)形成一種特定穩(wěn)定的障礙體結(jié)構(gòu),從而使得周圍的核小體排布呈現(xiàn)一種特征性的分布。那么如果能夠識(shí)別這種特性的分布,就可以去預(yù)測(cè)染色質(zhì)的相互作用。
基于這樣的想法,張治華團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)機(jī)器學(xué)習(xí)模型,利用MNase-seq數(shù)據(jù)來(lái)預(yù)測(cè)高精度的染色體相互作用位點(diǎn),然后進(jìn)一步引入低分辨率的HI-C數(shù)據(jù)來(lái)預(yù)測(cè)高精度的染色質(zhì)相互作用。他們通過(guò)在特定位點(diǎn)進(jìn)行高精度的3C實(shí)驗(yàn)驗(yàn)證了這一構(gòu)想。通過(guò)欠抽樣的實(shí)驗(yàn),他們發(fā)現(xiàn),CISD_loop只需要極少量的Hi-C數(shù)據(jù),就可以在1kb的精度上預(yù)測(cè)染色質(zhì)的相互作用。這使得CISD_loop和deDoc方法類似,可以成為在大的人群隊(duì)列,以及針對(duì)極低量細(xì)胞樣本進(jìn)行三維基因組研究的重要工具。目前,張治華團(tuán)隊(duì)正致力于改進(jìn)CISD_loop,以利用更容易獲取的ATAC-seq數(shù)據(jù)更高效的實(shí)現(xiàn)類似功能。CISD_loop在2017年底發(fā)表在《核酸研究》(Nucleic Acids Research)上。
上述兩篇論文的源代碼均可通過(guò)github下載:
https://github.com/huizhangucas/CISD
https://github.com/yinxc/structural-information-minimisation.
參考論文:
1. Angsheng Li*, Xianchen Yin, Bingxiang Xu, Danyang Wang, Jimin Han, Yi Wei, Yun Deng, Ying Xiong and Zhihua Zhang* (2018) Decoding Topologically Associating Domains with Ultra-low resolution Hi-C Data by Graph Structural Entropy. Nature Communications 2018. Doi:10.1038/s41467-018-05691-7.
2. Hui Zhang, Feifei Li, Yan Jia, Bingxiang Xu, Yiqun Zhang, Xiaoli Li, Zhihua Zhang* (2017) Characteristic arrangement of nucleosomes is predictive of chromatin interactions at kilobase resolution. Nucleic Acids Research V45, 12739 - 12751.
郵政編碼:200052 電話:021-63800152 傳真:021-63800151 京ICP備15010734號(hào)-10 技術(shù):網(wǎng)至普網(wǎng)站建設(shè)