
深度學(xué)習(xí)在基因組醫(yī)學(xué)領(lǐng)域的應(yīng)用已經(jīng)邁出通往希望的第一步,這一應(yīng)用可以對診斷、重癥護理、制藥和保險方面產(chǎn)生影響。
「基因型—表現(xiàn)型」鴻溝——我們能將基因組學(xué)與疾病表現(xiàn)型聯(lián)系起來——正阻礙基因組學(xué)深入挖掘醫(yī)學(xué)領(lǐng)域的潛力。
深度學(xué)習(xí)可以彌合「基因型—表現(xiàn)型」鴻溝,通過吸收指數(shù)級增長的數(shù)據(jù)量,解釋將基因型與表現(xiàn)型關(guān)聯(lián)起來的復(fù)雜生物過程中的多層結(jié)構(gòu)。
深度學(xué)習(xí)已經(jīng)成功應(yīng)用于人類天生擅長的領(lǐng)域,比如,圖像、文本以及語音理解。然而,人類意識卻不能理解基因組。為此,需要使用「超人智能」來解決這個問題。
這一領(lǐng)域的研究必須能夠解釋深層生物學(xué)機制;過度簡化或者「黑箱」研究方法,價值都將有限。
以下是相關(guān)媒體對創(chuàng)始人Brendan Frey的采訪
從你的背景開始談起吧?
1997年,我在 Hinton 的指導(dǎo)下完成了自己的博士學(xué)位。我們合著了一篇關(guān)于深度學(xué)習(xí)的論文(1995年發(fā)表在《科學(xué)》上),也是最早的深度學(xué)習(xí)研究論文之一。這篇文章可以說是近期許多無監(jiān)督學(xué)習(xí)以及自動編碼器研究的先驅(qū)。當時,我關(guān)注的是計算機視覺,語音識別以及文本分析。也研究深度結(jié)構(gòu)中的信息傳遞算法。1997年,David MacKay 和我合作了第一篇有關(guān)「環(huán)路信念傳播(loopy belief propagation)」或 「合積算法( sum-product algorithm )」的文章,這篇文章出現(xiàn)在了頂級機器學(xué)習(xí)會議 NIPS 上。
1999年,我成為 Waterloo 大學(xué) 的一名計算機科學(xué)教授。2001年,加入多倫多大學(xué),與其他幾位教授一起,共同成立了機器學(xué)習(xí)小組。我們的團隊研究深度結(jié)構(gòu)中的學(xué)習(xí)和推論,使用的是以變分方法、信息傳送以及馬爾可夫鏈蒙特卡爾理論(MCMCA)模擬為基礎(chǔ)的算法。多年來,我教授了十二門有關(guān)機器學(xué)習(xí)和貝葉斯網(wǎng)絡(luò)的課程,學(xué)生總計一千多人。
2005年,我成為 CIFAR 神經(jīng)計算項目的高級學(xué)者,這是一個與業(yè)內(nèi)帶頭人分享與合作的良機,比如,Yann LeCun,、Yoshua Bengio、Yair Weiss, 以及項目主管 Geoff Hinton 。
為什么從基因組學(xué)入手?
與個人經(jīng)歷有關(guān)。2002 年,也就是履新多倫多大學(xué)教授幾年后,當時我得知我妻子懷著的胎兒在基因上可能存在問題。但是,我們的顧問也沒把這個問題解釋清楚:她只是暗示說,要么沒什么問題,要么可能會有嚴重問題。那次經(jīng)歷,因為很多原因而變得極其困難,也給我職業(yè)生涯植入一條深深的信念:我主要研究如何識別 YouTube 視頻里的貓,但是,全面考慮一下,它似乎不那么重要。
我從中得到兩個啟示:首先,我想使用機器學(xué)習(xí)改善那些面臨類似基因問題人群的生活。第二,減少不確定性,價值巨大:給某個人一些信息,好或者壞,讓他們做出相應(yīng)計劃。相反,人們很難處理不確定性。因此,我調(diào)整了研究目標。我們轉(zhuǎn)向關(guān)注使用機器學(xué)習(xí)理解基因組運作原理。
為什么你會認為機器學(xué)習(xí)再加上基因組生物學(xué)會很重要?
基因組生物學(xué)這個領(lǐng)域,正在生成大量數(shù)據(jù)。很快,你就能通過手機大小的設(shè)備給自己的基因組排序,整個過程也不長,就是走到街角商店的時間。然而,基因組只是一部分,還有海量描述細胞與組織的數(shù)據(jù)。我們,作為人類,無法很好領(lǐng)會所有這種數(shù)據(jù),仍不十分了解生物學(xué)。機器學(xué)習(xí)有助于解決這個難題。
同時,機器學(xué)習(xí)界的其他人也承認這一需求。去年機器學(xué)習(xí)頂級會議上,Yann LeCun、Demis Hassabis、Neil Lawrence(謝菲爾德大學(xué)教授)以及 Kevin Murphy(谷歌)也認為,醫(yī)學(xué)領(lǐng)域會是下一個深度學(xué)習(xí)前沿。
為了成功,我們需要彌合「基因型—表現(xiàn)型的鴻溝」;蚪M和表現(xiàn)型數(shù)據(jù)很豐富。不幸的是,有意義地聯(lián)接這些數(shù)據(jù)的最先進的研究,卻讓文獻檢索以及濕實驗室試驗的過程變得緩慢,昂貴而且不準確。為了完成這一閉環(huán),我們需要可以確定間接表現(xiàn)型(亦即,分子表現(xiàn)型 molecular phenotypes)的系統(tǒng),作為從基因型走向疾病表現(xiàn)型的墊腳石。為此,機器學(xué)習(xí)必不可少。
相關(guān)概念
基因型(Genotype)指的是一個生物體內(nèi)的DNA所包含的基因,也就是說該生物的細胞內(nèi)所包含的、它所特有的那組基因。基因型對一個生物的發(fā)展有極大的影響,但是它不是唯一的因素。
表型(Phenotype),又稱表現(xiàn)型,對于一個生物 而言,表示它某一特定的物理外觀或成分。一個人是否有耳珠、植物的高度、人 的血型 、蛾的顏色 等等,都是表型的例子。表型主要受生物的基因型和環(huán)境影響,表型可分為連續(xù)變異或不連續(xù)變異的。前者較易受環(huán)境因素影響,基因型上則會受多個等位基因 影響,如體重 、智力和身高 ;后者僅受幾個等位基因影響,而且很少會被環(huán)境改變,如血型、眼睛顏色 和卷舌的能力。
分子表型(molecular phenotype)。我們可以從不同層次的窗口觀察生命的表現(xiàn),從原子水平、分子水平、細胞水平、個體水平、群體水平、生態(tài)水平等。通常,觀察的記錄可以叫做表型(phenotype)。近年來,從我們?nèi)庋劭吹靡娀虺R?guī)儀器可測的表型(比如身高、體重),到肉眼看不到、需要特殊儀器測定的表型,表型的內(nèi)涵已經(jīng)有了極大的發(fā)展。統(tǒng)計/數(shù)學(xué)下的表型機理 ,就是分子表型。
新一代年青的研究人員出現(xiàn)了,他們使用機器學(xué)習(xí)研究基因如何影響分子表現(xiàn)型,比如,斯坦福的 Anshul Kundaje 團隊。這里僅提及幾個未來的帶頭人:多倫多大學(xué)和哈佛大學(xué)的 Andrew Delong、Babak Alipanahi 以及 David Kelley ,他們研究蛋白質(zhì)和 DNA 的相互作用;MIT 的 Jinkuk Kim 研究基因表達以及華盛頓大學(xué)的 Alex Rosenberg ,他正在研究試驗方法,檢測數(shù)以百萬的突變及其對剪接的影響。我也很激動地看到,這個領(lǐng)域創(chuàng)業(yè)公司正在興起,比如 Atomwise, Grail 及其他公司。
當你開始基因組領(lǐng)域的研究時,當時的研究現(xiàn)狀如何?
研究人員使用著各種簡單的「線性」機器學(xué)習(xí)方法,比如支持向量機和線性回歸,后者可以根據(jù)病人的基因表達模式預(yù)測癌癥。這些技術(shù),從設(shè)計上看,比較「淺顯」。易言之,針對某個類別標簽,每個模型輸入都會得到一個非常簡單的「支持」或者「不支持」。那些方法并不能解釋生物學(xué)的復(fù)雜性。二十世紀九十年代和二十一世紀早期,隱馬爾科夫模型和相關(guān)分析序列的技術(shù)開始流行起來。Richard Durbin 和 David Haussler 帶領(lǐng)著這一領(lǐng)域的研究團隊。
與此同時,MIT 的 Chris Burge 團隊開發(fā)了一款馬爾科夫模型,可以檢測基因,推斷基因的開始以及不同部分(基因內(nèi)區(qū)和外顯子)的界限。這些方法僅對低層次的「序列分析」有用,無法彌合基因型與表現(xiàn)型之間的鴻溝。一般說來,當時的研究狀態(tài)就是這些根本淺顯的方法驅(qū)動的,這些技術(shù)無法充分解釋深層次的生物學(xué)機制,比如基因組文本如何轉(zhuǎn)變?yōu)榧毎、組織和器官。
開發(fā)足以解釋深層生物學(xué)的計算模型,意味著什么?
將基因型與表現(xiàn)型關(guān)聯(lián)起來的最受歡迎的方式之一,就是在所謂的全基因組關(guān)聯(lián)研究( a genome-wide association study , GWAS)中,尋找與疾病相關(guān)的變異。這種方法也比較淺顯,在某種意義上,讓從某個突變到基因表現(xiàn)型之間還有許多生物學(xué)步驟大打折扣。這種研究方法能夠識別出可能重要的 DNA 區(qū)域,但是,他們識別出的幾乎所有突變都不是偶然的。在絕大多數(shù)情況下,如果可以糾正突變,它就不會影響到表現(xiàn)型。
還有另一種非常不同的辦法,可以解釋間接的分子表現(xiàn)型。比如基因表達。在一個活體細胞中,當?shù)鞍踪|(zhì)以某種方式與基因的上游序列互動 ——比如,啟動子(promoter)。一個尊重生物學(xué)的計算模型就能吸收這個啟動基因表達的偶然性鏈條。2004年, Beer 和 Tavazoie 寫了一篇論文,我認為這篇文章很有啟發(fā)性。他們試圖根據(jù)啟動子序列,通過被當做源自啟動子序列的輸入特征的邏輯回路,預(yù)測每個酵母基因表達水平。最終,他們的方法沒有成功,但是一次很棒的嘗試。
我們團隊的研究方法就是受到這兩位研究人員的啟發(fā),但是,有三方面的不同:我們檢測了哺乳動物細胞,我們使用了更先進的機器學(xué)習(xí)技術(shù),關(guān)注剪接,而不是轉(zhuǎn)錄。回想起來,這一最后區(qū)別是一次偶然的轉(zhuǎn)變。轉(zhuǎn)錄要比剪接難模擬得多。剪接是一個生物學(xué)過程,基因的某些部分(基因內(nèi)區(qū))被去除,剩余的部分(外顯子,基因中有編碼蛋白質(zhì)功能的部分)聯(lián)系在一起。有時,外顯子也被敲掉了,這能對表現(xiàn)型產(chǎn)生主要影響 ,包括神經(jīng)功能障礙和癌癥。
為了用機器學(xué)習(xí)破解剪接規(guī)則,我們的團隊與優(yōu)秀實驗生物學(xué)家 Benjamin Blencowe 領(lǐng)導(dǎo)的團隊合作。我們建立了一個框架,從基因序列中提取生物學(xué)特征,預(yù)處理噪音性質(zhì)的實驗數(shù)據(jù),訓(xùn)練機器學(xué)習(xí)技術(shù)預(yù)測 DNA 的剪接模式。這項研究工作很成功,有些成果都發(fā)表在了《自然》和《科學(xué)》上。
基因組學(xué)與其他應(yīng)用領(lǐng)域有什么不同?
我們發(fā)現(xiàn),較之視覺、語音以及文本處理,基因組學(xué)面對的挑戰(zhàn),與眾不同。許多視覺方面的挑戰(zhàn)依賴這樣一個假設(shè):要被分類的目標占據(jù)輸入圖像的大部分面積。在基因組學(xué)方面,相關(guān)目標僅占據(jù)微小部分——比如,輸入的百萬分之一,因此,會產(chǎn)生問題。易言之,分類器按照信號總量起作用。其他任何事情都是噪音——有很多噪音。更糟糕的是,這是相對結(jié)構(gòu)化的噪音,包含了其他、更大的與分類任務(wù)無關(guān)的目標。那就是基因組學(xué)給出的難題。
還有更加讓人擔心的復(fù)雜性,我們自己都不清楚基因組。當檢查一個典型圖像時,我們自然而然地識別出其中的物體,我們也知道想讓算法識別什么。這也被應(yīng)用于文本分析和語音處理,這些領(lǐng)域中,我們都在處理真相問題。與此形成鮮明對比的是,人類本身并不善于解釋基因組。實際上,這方面表現(xiàn)的很糟糕。所有這些都是在說,我們必須向真實的超人人工智能求助,克服自身局限性。
能多介紹一點你在醫(yī)學(xué)領(lǐng)域的研究工作嗎?
我們開始訓(xùn)練系統(tǒng),讓它在不包括任何疾病數(shù)據(jù)的情況下,預(yù)測分子表現(xiàn)型。然而,一旦系統(tǒng)得到訓(xùn)練,我們意識到,我們的系統(tǒng)實際上可以準確預(yù)測疾病;它明白細胞如何讀取DNA序列,如何將它轉(zhuǎn)變?yōu)殛P(guān)鍵分子。一旦有了關(guān)于這些情況如何正常運作的計算模型,那么,你就能通過它來偵測什么時候情況走偏了。
然后,我們將系統(tǒng)轉(zhuǎn)向用于大規(guī)模的疾病突變數(shù)據(jù)組。猜測DNA里存在某種特殊突變。我們輸入了突變的 DNA 序列及其對應(yīng)的非突變部分,然后比對兩組輸出,也就是分子表現(xiàn)型。如果觀測到了一個大的變化,我們會將這個突變標簽為具有潛在致病性。結(jié)果表明,這種方法很管用。
但是,當然,這個辦法并非完美無缺。首先,變異可能改變分子表現(xiàn)型,但是不會致命。第二,突變可能不會影響我們正在模擬的分子表現(xiàn)型,但會以其他方式致病。第三,當然,我們的系統(tǒng)不是百分百正確。盡管存在這些不足,我們的方法能夠準確區(qū)分疾病與良性突變。去年我們在《科學(xué)》和《自然 生物技術(shù)》上發(fā)表了論文,證實這一研究方法比其他競爭方法的準確性要高得多。
背景知識
2015年夏天,Brendan Frey 教授的實驗室創(chuàng)立 Deep Genomics 公司。他領(lǐng)導(dǎo)的實驗室能使用深度學(xué)習(xí)技術(shù),篩選海量以前未知的基因突變,找出致病的基因突變。2015年11月,Deep Genomics 公司宣布完成370萬美元的種子輪融資,由位于灣區(qū) True Ventures 領(lǐng)投,Bloomberg Beta 和其它投資方跟投。目前,這家公司已經(jīng)與醫(yī)院,生物科技創(chuàng)業(yè)公司以及制藥公司展開合作,使用基因疾病患者的基因數(shù)據(jù)測試公司系統(tǒng)。Human Longevity 也于2015年8月成為 Deep Genomics 的客戶,公司還與 SynapDx,多倫多應(yīng)用基因組學(xué)中心建立了「合作伙伴」關(guān)系。
我們的工作需要各個領(lǐng)域的專業(yè)技術(shù),包括深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò),隨機森林,GPU 計算,基因組學(xué),轉(zhuǎn)錄組學(xué),高通量實驗生物學(xué)以及分子診斷學(xué)。比如,我們有 Hui Xiong , 發(fā)明了一種貝葉斯深度學(xué)習(xí)算法,預(yù)測剪接作用;還有Daniele Merico ,他研發(fā)了完整基因組測序診斷系統(tǒng),這個系統(tǒng)已被用于兒童醫(yī)院。我們也將繼續(xù)招募這些領(lǐng)域的人才。
一般說來,我們的技術(shù)能從許多方面影響醫(yī)學(xué),包括:基因診斷,精煉藥物靶點,藥物研發(fā),個性化施藥,改善健康保險制度甚至合成生物學(xué)。目前,我們關(guān)注的是診斷方面,因為它是我們技術(shù)的直接應(yīng)用。我們的引擎提供了一個豐富的信息來源,能以更低的成本做出更加可靠的診斷決策。
這個領(lǐng)域里,許多新興技術(shù)會要求具有理解基因組內(nèi)部工作原理的能力。比如,使用 Cas9 系統(tǒng)進行基因編輯。這個能讓我們給 DNA「寫信」的技術(shù)會是件大事。也就是說,知道如何書寫并不等于知道寫的內(nèi)容。編輯 DNA 可能讓疾病更糟糕。試想一下,如果你能用一種計算「引擎」顯而易見地確定基因編輯后果。平心而論,那還很遙遠。然而,那就是我們最終想要做到的。
郵政編碼:200052 電話:021-63800152 傳真:021-63800151 京ICP備15010734號-10 技術(shù):網(wǎng)至普網(wǎng)站建設(shè)