?
中國科商網
AI預測蛋白質結構,正在加快新藥研發進程
發布日期: 2021-12-22 15:42:51 來源: 中國新聞網

(經觀東西)AI預測蛋白質結構,正在加快新藥研發進程

中新社北京12月22日電 (記者 劉育英)中國初創公司深勢科技近日推出蛋白結構預測工具Uni-Fold,在中國國內首次復現谷歌Alphafold2全規模訓練并開源訓練、推理代碼。深勢科技創始人在接受中新社專訪時表示,人工智能預測蛋白質結構這一突破,將給新藥研發等領域帶來新的突破。

今年夏天,用人工智能預測蛋白質結構取得里程碑式進展。谷歌的AlphaFold2和華盛頓大學的RoseTTAFold工具,成功根據氨基酸序列預測了生命基本分子——蛋白質的三維結構。利用實驗室手段可能需要數年的研究才能解析一個蛋白質結構,利用計算結構模型最快只需10分鐘。

預測蛋白質結構為什么重要?深勢科技創始人兼首席科學家張林峰解釋說,蛋白質是組成生命體的重要物質基礎。不同的蛋白質通過折疊形成不同的三維結構,執行多種多樣的生理功能。癌癥、癡呆等幾乎所有疾病,都與細胞內蛋白質結構變化相關,如果能夠掌握蛋白質結構的變化,將對疾病的預防、治療等帶來重要影響。

從氨基酸序列到對應蛋白質三維結構的預測問題被認為是生物學領域最具有挑戰性的問題之一。

在過去幾十年的研究中,科學家們為探測蛋白質結構發展出三大實驗手段:X射線晶體學、核磁共振和冷凍電鏡。但實驗方法成本高、周期長。目前人類已知有數十億氨基酸序列,但還原出結構的只有十幾萬。生物學發展因此頗受掣肘。

AI的發展為這一問題帶來了新的可能。7月22日,谷歌旗下Deepmind公司在《自然》雜志發表文章稱,基于深度學習神經網絡的AlphaFold2已經預測出了35萬種蛋白質結構,涵蓋了98.5%的人類蛋白質組以及20種生物的蛋白質,并開源了它的數據庫。這一結果也標志著蛋白質單體結構問題在一定程度上得到解決。

中國公司已進入這一領域。張林峰說,AlphaFold2公布了推理代碼,但并未公布訓練代碼。意味著公布了產品,但未公布其“流水線”。而訓練代碼是行業中的真正壁壘。深勢科技通過“投喂”數據,復現了整個訓練過程,并開源其訓練代碼。

另外,單一蛋白質的預測只是起點,深勢科技希望通過分子動力學等物理模型,把蛋白質-蛋白質相互作用,蛋白質和藥物分子之間的相互作用通過AI預測出來,這對下一步藥物設計和生命科學發展都有重大意義。

深勢科技創始人兼CEO孫偉杰表示,深勢科技對訓練代碼進行了開源,這意味著使用者能夠更方便地訓練和使用模型,降低了使用者的門檻。

目前相應解決方案已集成至深勢科技自主研發的藥物設計平臺Hermite,供廣大用戶測試使用。未來,AI預測蛋白質技術可以在幾個場景落地,如新藥研發、微尺度工業設計等。

孫偉杰介紹,通常人們服用的藥物大多是小分子化學藥,它們的作用靶點大部分在蛋白質上。研發這類藥物的一個重要前提,是解析蛋白質結構。只有繪制出人體內某些蛋白質的“三維地圖”,才能找到藥物靶點,完成“精準制導”。

深勢科技致力于從更底層,用AI+物理模型+高性能計算的范式,去求解藥物設計里很多通用問題。

如何驗證AI預測是否準確?孫偉杰說,AI預測與冷凍電鏡是互為協同關系,一部分AI預測的結果要通過冷凍電鏡來驗證,同時, AI數據集的不斷增加,模型不斷的訓練和演化,以及實驗手段和模擬手段的結合,是一個共同發展和相輔相成的過程。AI無法代替科學家的智慧,但能夠提升科學家的效率。

據了解,從上世紀六十年代,一些國際大型藥企就開始用計算方法輔助藥物研發,現在介入的程度越來越深,在藥物設計的各個主要環節都可以看到計算和AI的身影,計算對實驗的滲透率也在逐漸提高。

AI制藥已經成為投資風口,深勢科技已獲得多家知名機構和公司的投資,其在藥物設計領域已經有超過十家合作伙伴。“由于人工智能系統預測蛋白質結構的耗時遠遠少于實驗測定,新藥研發的效率有望大幅提高。人工智能系統還能助力科學家設計自然界不存在的蛋白質,催生各種新材料,用于能源、化工、環保等行業”,孫偉杰表示。(完)

關鍵詞: 科技 AI 預測 結構 蛋白質

相關內容

?