Science 發文,高通量蛋白質組學和人工智能的革命 - IT思維
公眾號/? ScienceAI(ID:)
編譯 | 紫羅
最近,研究人員能夠從少量血液樣本中測量數千種血漿蛋白,這為廣泛的數據提供了新的維度,可以增進我們對人類健康的了解。
例如,SomaLogic 公司已經開發出測量 10,000 多種蛋白質的方法,而賽默飛世爾的 Olink 檢測方法可以從少至 2 μl 的樣本中檢測 5400 多種蛋白質。
當這些豐富的 數據 與來自大型患者群體的其他信息層(例如英國生物庫從 50 萬名參與者那里獲得的基因、健康和生活方式信息)相結合時,我們就會對疾病的根源、衰老過程以及預測個人健康軌跡的潛在能力產生新的見解。
十多年來,科學家已經開發出預測疾病風險的多基因風險評分(polygenic risk scores,PRS)。PRS 已在不同血統的人群中得到驗證,現在開始用于患者指導。這些風險評分通常基于數百種常見(存在于 5% 以上的人口中)單核苷酸多態性 (SNP) 的存在。
但我們知道,患病風險不僅僅反映在常見的 DNA 序列變異中。還有一些罕見和極罕見的基因組變異未被計入風險計算中,例如 DNA 中核苷酸的插入-缺失 (indel) 會產生突變,或者 DNA 排列的變化(而不僅僅是單核苷酸變化)會導致結構變異。此外,蛋白質組學、代謝組學和表觀基因組學譜以及微生物組、免疫組和暴露組(環境暴露)也存在差異。
2000 年,中美英日德法6國宣布人類基因組工作草圖繪制完成。已繪制出人體 97% 的基因組,其中 85 %的基因組序列得到了精確測定,包含了人體約 30 億個堿基對的正確排序。
人類基因組中約有 20,000 個蛋白質編碼基因,而人體中卻有超過 100,000 種不同的蛋白質,并且由于可變剪接,人體中還存在數十萬種蛋白質異構體(變體)。能夠檢測其中的大部分蛋白質是無假設研究的基礎,即努力收集數據并盲目尋找模式,而不是假設存在某些模式然后尋找它們。這種方法與機器學習分析一起,引發了一場理解疾病基礎的革命。
最近幾項高通量蛋白質組學研究,在器官和全身層面都具有啟發意義。三項研究探討了器官特異性蛋白質動力學。
斯坦福大學研究團隊將 5,676 名成年人分為五個獨立隊列(三組為健康參與者,兩組為阿爾茨海默病患者)中篩選出數據,來評估近 5000 種血漿蛋白(并進行了 5 年的隨訪)。
使用機器學習模型,確定了 11 個器官特有的蛋白質,并通過比較生物年齡和實際年齡得出「器官年齡差距」。大約五分之一的人至少有一個器官是超齡者,因此,器官在生理和功能上都比人的實際年齡大得多,2% 的人有多個器官是超齡者。對于這 11 個器官中的每一個,年齡差距都與死亡風險增加有關。
論文鏈接:https://www.nature.com/articles/s41586-023-06802-1
隨后的兩項研究進一步證實了這一發現。
在哈佛醫學院的預印論文中,他們對 53,000 名英國生物樣本庫(UK Biobank)參與者的約 3000 種血漿蛋白進行了評估。借助機器學習,他們定義了七個器官特異性衰老時鐘。吸煙等生活方式因素與所有七個器官的衰老速度加快有關,飲酒也會導致腸道衰老。器官衰老還與許多其他因素有關,包括各種食物、藥物和職業。
論文鏈接:https://www.medrxiv.org/content/10.1101/2024.04.08.24305469v1
第三項研究也是由斯坦福大學進行的,他們檢測了 44,000 名 UK Biobank 參與者的 3000 種血漿蛋白,并進一步驗證了 11 個器官特異性衰老時鐘。與吸煙和飲酒相比,絕經后雌激素替代療法與大多數器官的衰老速度減慢有關。一個值得注意的發現是,在長達 15 年的隨訪中,大腦或免疫系統衰老緩慢與生存率提高有關。
論文鏈接:https://www.biorxiv.org/content/10.1101/2024.06.07.597771v1
轉向全身高通量蛋白質組學,牛津大學團隊分析了 45,000 多名 UK Biobank 參與者的近 3000 種血漿蛋白,并在約 4000 名參與者的中國生物庫和近 2000 人的芬蘭生物庫中進行了進一步的交叉驗證,每個隊列至少進行了 11 年的隨訪。
204 種蛋白質簇不僅可以準確預測實際年齡,而且還與 18 種慢性疾病有關,包括四種常見癌癥、多重疾病和全因死亡率(任何原因導致的死亡)。蛋白質組時鐘快速衰老者(蛋白質模式表明衰老速度異常快的個體)患阿爾茨海默病的風險更高,而在蛋白質組時鐘緩慢衰老者中,不到 1% 的人患上阿爾茨海默病。
論文鏈接:https://www.nature.com/articles/s41591-024-03164-7
劍橋大學發表了兩份關于使用人工智能 (AI) 模型進行全身蛋白質組學研究的報告,拓寬了疾病預測領域。
在超過 25,000 名參與者的 EPIC-Norfolk 隊列中,大約 3000 種血漿蛋白被檢測出來,并與 13 種疾病和全因死亡風險相關。更廣泛地說,在英國生物庫的 41,000 多名個體中,通過評估相同的血漿蛋白并將數據與電子健康記錄相結合,發現 218 種常見和罕見疾病中的 52 種的風險可預測性程度各不相同。
論文鏈接:https://www.nature.com/articles/s41591-019-0673-2
關于衰老,蛋白質組學研究表明它不是一個線性過程。2019 年,斯坦福大學研究人員,在 4000 多名年齡在 18 至 95 歲之間的人群中,在近 3000 種蛋白質中,我們的生命周期中有三個蛋白質組學峰,分別在 35 歲、60 歲和 80 歲左右。最近,一項多組學研究評估了 300 多種蛋白質,但僅限于 75 歲(并進行了 1.7 年的短暫隨訪),發現蛋白質組學峰出現在 44 歲和 61 歲。
論文鏈接:https://www.nature.com/articles/s41591-019-0665-2
SomaLogic 公司研究了近 17,0000 名個體中約 5000 種蛋白質的預測潛力,發現蛋白質與心血管疾病、糖尿病和代謝相關脂肪肝疾病的風險密切相關。其他高通量蛋白質組學研究則集中于健康個體患癡呆癥的風險和阿爾茨海默病,后者與人體表達的載脂蛋白 E (APOE) 基因變異有關。
總之,這些研究突出了檢測和了解大量血漿蛋白的全新非凡能力。迄今為止的研究已經增強了我們對人類衰老過程的理解,確定了許多器官特異性變化及其可能如何得到有利調節,并提高了使用蛋白質組學評分評估各種疾病風險的潛力。
當然,這僅代表一層數據,通過使用多模態 AI 分析,可以與電子健康記錄、基因組風險、表觀遺傳時鐘、炎癥生物標志物、腸道微生物組、免疫系統功能和環境暴露正交整合。
高通量蛋白質組學評估的一個限制是費用,每人費用從 500 美元到 1000 美元不等。但經過驗證的蛋白質組子集可用于特定風險評估,因此成本可能會低得多。
此時不容錯過的是,我們確實看到了蛋白質組學領域和人工智能的令人振奮的發展,它們將繼續發展并最終在常規醫療保健中找到自己的位置。
參考內容:https://www.science.org/doi/10.1126/science.ads5749