網路城邦
上一篇 回創作列表 下一篇   字體:
AlphaFold - DeepMind
2022/06/29 20:21:22瀏覽297|回應0|推薦2
蛋白質折疊難題確實蠻適合用深度學習方法來解決,這已經困擾人類五十年了。DeepMind 認為更精確地判斷蛋白質架構除了能夠加速對已知疾病的了解之外,亦具備探索未知的數億種蛋白質的潛力。

在 2018 年以 AlphaFold 奪下蛋白質結構預測關鍵評估(Critical Assessment of protein Structure Prediction,CASP)所舉辦的全局距離測試(Global Distance Test,GDT)冠軍之後,2020 年再以 AlphaFold 2 創下更高的預測準確率,達到一個原子誤差,確實相當驚人。

蛋白質的功能取決於它的 3D 結構,而其 3D 結構則是來自於氨基酸序列的摺疊方式。1972年的諾貝爾化學獎得主 Christian Anfinsen 曾提出一個假設:理論上從一個蛋白質的氨基酸序列就能判斷其結構。然而,該假設最大的挑戰在於要進入 3D 結構之前,蛋白質的折疊方式將是個天文數字,若要利用蠻力運算,估計有 10^300 種可能性,所耗費的時間可能比已知的宇宙生命還久。

AlphaFold則是直接從結構著手,並不使用已知的蛋白質作為樣本,再利用兩種基於深度神經網路的方法來建構完整蛋白質結構的預測,得以預測氨基酸對之間的距離,以及連結這些氨基酸之化學鍵之間的角度。

AlphaFold 是以含有 17 萬種蛋白質架構的蛋白質資料銀行(Protein Data Bank,PDB)數據,再加上內含未知架構之蛋白質序列的各種大型資料庫來進行訓練,以 128 個 TPUv3 核心(約等於100~200個GPU)執行數周,這樣的運算規模與現代最新大型機器學習模型差不多。

目前 UniProt 蛋白質序列資料庫存放了還在增加中的 1.8 億種蛋白質序列,而 PDB 卻只有 17 萬種蛋白質架構,在尚未被確認的蛋白質中,可能有一些令人興奮的新功能,而 AlphaFold 這類的工具則可協助科學家找到它們。
( 創作散文 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=robertyjlai&aid=175439510