折疊革命,深度學習通過氨基酸序列預測蛋白質結構

  • A+
所屬分類:娛樂
摘 要

大數據文摘出品編譯:Stats熊、周素雲

折疊革命,深度學習通過氨基酸序列預測蛋白質結構

大數據文摘出品

編譯:Stats熊、周素雲

幾乎每一個生命基本生化過程都與蛋白質息息相幹。通過它們構造並保持每個細胞和組織的外觀結構;構建那些維持生命化學反應的催化酶;成為分子的加工廠、轉換器和驅動機;擔當信號器並接收蜂窩信號等等。

由氨基酸和蛋白質組成的長鏈,將它們自己折疊成精準3D結構,可以管理分子間活動的龐雜問題。因為,蛋白質外形決定了它的功能和疾病中產生的功能雜亂,並影響蛋白質在分子生物學的中心地位,特別是用於治療科學和治病保健等藥物的發展。

近些年,蛋白質通過自身的氨基酸序列可以實現被預測,在計算方法上有了巨大進步。如果都能使用這些計算方法,那生物醫學研究都可以被轉換成計算公式。然而,現在一些應用則受到了蛋白質規模和範圍的局限而無法決策。

近期,來自哈佛醫學院的科學家應用了深度學習的方法,基於氨基酸序列來有效預測蛋白質的3D結構。17年4月,在Cell Systems上的一篇文章中,系統生物學家Mohammed AIQuraishi闡述了一種可以用來預測蛋白質結構的新計算方法,不但達到現在計算方法準確性,而且速度可以提高到一百萬倍以上。

「蛋白質折疊在近半個世紀裡,一直以來都是困擾生物化學家們最重要的難題,但是這種方法給解決這類難題提供了一個新方向。」 哈佛醫學院Blavatnik學院系統生物學的教導主任AIQuraishi如是說。

「我們現在對探索蛋白質折疊有了全新遠景,同時我覺得我們正在一步步深入本質。」

理論的提出

雖然理論的探索非常成功,但使用物理工具識別蛋白質結構的過程卻是昂貴和費時的。因此,絕大多數蛋白質結構,以及致病突變對這些結構的影響在很大程度上仍是未知的。

如果能設計出計算蛋白質折疊的算法,是極有潛力大幅度降低塑造結構的成本和時間。但是這個問題一直困擾著我們長達四十年之久。

展開全文

折疊革命,深度學習通過氨基酸序列預測蛋白質結構

可視化模擬AlQuraishi的蛋白質折疊深度學習方法。該模型通過反覆預測結構(彩色)並將其預測與地面真實結構(灰色)進行比較來訓練。這是重復成千上萬的已知蛋白質,隨著模型的學習和提高其準確性的每一次迭代。

蛋白質從二十多種的氨基酸中構建起來,這就像把字母從字母表中挑出來,連詞逐句構建文章。

然而,與那些字母不同的是,氨基酸是存在於3D空間中的實物。

通常,蛋白質的各個部分在物理上很接近,但在序列上卻有很大的距離,因為它的氨基酸鏈形成了環狀、片狀和螺旋形。「這個問題讓人矚目在於可以簡單表述:抓取一個序列並研究出它的形狀,」AIQuraishi如是說,「蛋白質一開始是一個非結構化的字符串,它必須呈現出三維的形狀,而一個字符串可以折疊成的形狀集是巨大的。許多蛋白質由數千個氨基酸組成,其龐雜性很快超過了人類直覺甚至是最強大的計算機的能力。」

難以解決的問題

為了解決這一難題,科學家們利用氨基酸之間相互作用的事實,根據物理定律,尋找積極有利的狀態,簡直就是杯水車薪。

在超級計算機上計算蛋白質結構是目前最先進的算法,在[email protected]和[email protected]這樣的項目中,這些超級計算機或眾包計算能力可以模擬氨基酸通過強力相互作用的龐雜物理過程。

為了減少大量的計算需求,這些項目依賴於將新的序列映射到預先定義的模板上,並通過之前的實驗確定的蛋白質結構。

很多研究學者對Google的AlphaFold一類項目很感興趣,他們是利用人工智慧技術來預測蛋白質的結構。為此,這些方法分析了大量的基因組數據,其中包含蛋白質序列的藍圖。他們尋找許多可能共同進化的物種之間的序列,利用這些序列作為接近身體的指標來指導結構裝配。

然而,這些人工智慧方法並不僅僅基於蛋白質的氨基酸序列來預測結構。因此,它們在確定沒有先驗知識的蛋白質結構、進化獨特的蛋白質或人類設計的新蛋白質方面的能力有限。

進一步試驗

為了開發一種新的方法,AlQuraishi應用了所謂的端到端可微深度學習。這一人工智慧分支極大地降低了解決圖像和語音識別等問題所需的計算能力和時間,並應用在Siri和Google翻譯等程序上。

從本質上講,可微學習涉及到一個單一的、龐大的數學函數(高中微積分方程的更龐雜版本),它被安排為一個神經網路,網路的每個組成部分向前和向後提供資訊。在難以想像的龐雜情況下,這個方程依舊可以自我調節,以便準確地「了解」蛋白質序列在數學上是如何與其結構相幹聯的。

AlQuraishi開發了一個深度學習模型,稱為循環幾何網路,主要研究蛋白質折疊的關鍵特征。但在做出新的預測之前,它必須使用之前確定的序列和結構進行訓練。

折疊革命,深度學習通過氨基酸序列預測蛋白質結構

上圖展示的是循環幾何網路模型是如何計算氨基酸肽鍵的夾角和這些肽鍵的旋轉角度,去形成一個蛋白質的幾何結構。

對於每一種氨基酸,該模型都能預測出將氨基酸與其相鄰氨基酸連接起來的化學鍵的最可能角度。它還預測了這些鍵的旋轉角度,從而影響到蛋白質的任何局部區域與整個結構的幾何關係。

這將不斷重復進行,每一個計算都是由其他氨基酸的相對位置決定的。一旦整個結構完成,該模型通過將其與蛋白質的「地面實況」結構進行比較,來查驗其預測的準確性。整個過程對數千種已知的蛋白質重復進行,每一次重復都會使模型學習的準確性得到提高。

初步成果

當模型被訓練好時,AlQuraishi測試了它的預測能力。他將其性能與近年來「蛋白質結構預測關鍵評估」的其他方法進行了比較。蛋白質結構預測關鍵評估是一項年度實驗,測試計算方法利用已確定但未公開發布的蛋白質結構進行預測的能力。

他發現,在預測沒有預先存在模板的蛋白質結構方面,新模型優於所有其他方法,包括使用共同進化數據的方法。當預先存在的模板可用來進行預測時,它的性能也比所有方法都好,只有最好的方法除外。

AlQuraishi指出,盡管準確性上的提高相對較小,但在這些測試的最頂端很難實現任何改進。因為這種方法代表了一種全新的蛋白質折疊方法,無論物理上還是計算上都是現有方法的補充, 來確定比以前更廣泛的結構。

值得注意的是,新模型的預測速度比現有的計算方法快6到7個數量級。訓練這個模型可能需要幾個月的時間,但一旦訓練,它可以在幾毫秒內做出預測,而使用其他方法需要幾小時到幾天的時間。這種顯著的改進部分是由於它所基於的單一數學函數,只需要幾千行計算機代碼就可以運行,而不是數百萬行。

AlQuraishi說,這個模型的預測速度之快使得以前速度慢或難以實現的新應用成為可能,比如預測蛋白質在與其他分子相互作用時如何改變形狀。

「深度學習方法,不僅僅是我的方法,其預測能力和受歡迎程度將繼續增長,因為它們代表了一種最小的、簡單的范例,能夠比當前龐雜的模型更容易地集成新思想,」他補充說。

AlQuraishi說,這個新模型還不能立即用於藥物發現或設計,因為目前它的精確度大約在6埃左右,離解決蛋白質的完整原子結構所需的1埃到2埃還有一段距離。

但他說,有很多機會可以優化這種方法,包括進一步整合化學和物理的規則。AlQuraishi說: 準確、有效地預測蛋白質折疊一直是這個領域的聖杯,我期待這種方法,連同所有其他已經開發出來的傑出方法,在不久的將來能夠做到這一點。

「AIQuraishi的工作給人的印象極深,尤其是敢於單槍匹馬與Google這類公司,在最火的計算機領域之一同臺競爭,並深入到具有良好研究系統的哈佛醫學院和波士頓生物醫藥社區。」作為哈佛醫學院Blavatnit系的Otto Krayer教授,兼系統病理實驗室主任的彼得佐格爾如是說。

為了讓大家更好的體驗並參與到算法研發中,AIQuraishi已經將全部軟體和結果在GitHub軟體分享平臺上發布。

發表評論

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: