版權歸原作者所有,如有侵權,請聯(lián)系我們
1806 年,23 歲的德國藥劑師 Sertürner 從罌粟中首次分離出單體嗎啡,現(xiàn)代天然藥物化學研究自此起步。在此基礎上,德國化學家 Friedrich Wǒhler 在 1828 年成功實現(xiàn)了尿素的人工合成,這也標志著有機化學學科的正式誕生。可以說,正是人類對生物活性天然產(chǎn)物 (natural product, NPs) 的持續(xù)研究促成了有機化學學科的建立。
所謂生物活性天然產(chǎn)物 (NPs) ,其實是自然界長期進化的物質實體,是生物活性物質和實用藥物研發(fā)的重要源泉。在藥物研發(fā)進程中,NPs 對于癌癥和傳染病治療藥物的創(chuàng)新有著巨大貢獻。但時至今日,NPs 仍在篩選、分離、表征、優(yōu)化等各方面存在技術障礙。其中,從復雜混合物中分離 NPs 可謂是最為嚴峻的挑戰(zhàn)之一,這也成為了藥物研究的一大瓶頸。
為了解決這一瓶頸, 中南大學湘雅醫(yī)院藥學部劉韶教授團隊,創(chuàng)新性地建立了一種可全面挖掘天然藥物藥效成分的整合分子網(wǎng)絡框架 (integrated molecular networking workflow for NP dereplication, IMN4NPD),不僅加快了分子網(wǎng)絡中廣泛集群的去復制 (dereplication),而且對現(xiàn)有研究方法中經(jīng)常被忽略的自循環(huán)與成對節(jié)點提供標注。相關研究成果日前被發(fā)表于美國化學會 (ACS) 期刊 Analytical Chemistry。
論文地址:
https://doi.org/10.1021/acs.analchem.3c04746
IMN4NPD:集成多種計算工具,由光譜相似度驅動的分子網(wǎng)絡
IMN4NPD 的核心工作原理是由光譜相似度驅動的分子網(wǎng)絡。它通過集成并協(xié)同 NPClassifier, molDiscovery 和 t-SNE 網(wǎng)絡等多種計算工具,從而幫助研究人員快速識別特定類別的化合物,同時還能簡化分子網(wǎng)絡節(jié)點中的標注。
* NPClassifier:一種基于深度神經(jīng)網(wǎng)絡的天然產(chǎn)物結構分類工具
* molDiscovery:一種質譜數(shù)據(jù)庫搜索方法
一般而言,IMN4NPD 的工作流程可分為 3 步:
第一步,對原始 LC-MS 數(shù)據(jù)進行預處理,以生成分子網(wǎng)絡或基于特征的分子網(wǎng)絡。隨后,基于深度神經(jīng)網(wǎng)絡的 NP 分類工具 SIRIUS,通過 NPClassifier 對復合類進行系統(tǒng)分類。
第二步,該研究通過 GNPS (Global Natural Product Social Molecular Networking),進行了基于 MS/MS 光譜數(shù)據(jù)庫的去復制實驗,然后通過 molDiscovery 進行基于計算機數(shù)據(jù)庫的去復制。
第三步,研究人員利用 MS/MS 光譜特征的相似度生成 t-SNE 網(wǎng)絡,并對每個節(jié)點的化合物進行化學分類,以精確定位、并去復制分布在自循環(huán)網(wǎng)絡中的特定化合物類別。
IMN4NPD 工作流程示意圖
可用性評估:探索異喹啉類似物,在分子網(wǎng)絡中迅速識別特定化合物簇
為了評估 IMN4NPD 工作流程的性能和優(yōu)勢,該研究重新分析了蓮子心的乙醇提取物。蓮子心是蓮蓬中的胚芽部分,是一種富含雙芐基異喹啉、單芐基異喹啉和阿樸啡等多種生物堿的中藥植物,可用于治療失眠、遺精、心率失調、高血壓等癥狀。
基于實驗性 MS/MS 光譜數(shù)據(jù)庫,該研究最初對分子網(wǎng)絡中的單個節(jié)點進行化學分類,從而在分子網(wǎng)絡中迅速識別出特定的化合物簇,以探索新的異喹啉類似物。在查看了分子網(wǎng)絡中每個特征映射的化學分類結果后,研究人員發(fā)現(xiàn),很容易就能找到與異喹啉類似物相對應的某些化合物簇,同時,異喹啉類化合物主要分布在分子網(wǎng)絡中的四個簇中。
異喹啉類化合物分布圖
該研究還發(fā)現(xiàn),通過實驗性 MS/MS 光譜數(shù)據(jù)庫(如 GNPS 數(shù)據(jù)庫)只能成功地去復制大型簇中數(shù)量有限的特征。因此,該研究采用了最先進的硅學片段算法 molDiscovery 進行結構數(shù)據(jù)庫匹配。這種基于實驗和硅學 MS/MS 圖譜數(shù)據(jù)庫的去復制方法,增強了在分子網(wǎng)絡中、尤其是在大型集群中,及時、方便地標注物質結構的能力。
以單芐基異喹啉生物堿中的集群 A 為例,該集群由 36 個節(jié)點組成,其中 MS 數(shù)據(jù)庫只標注了 7 個節(jié)點,Structure 數(shù)據(jù)庫標注了 35 個節(jié)點,MS 和 Structure 數(shù)據(jù)庫同時標注了 8 個節(jié)點。值得注意的是,這其中有一個 m/z 344.1855 節(jié)點 (tR=7.6329) 被 MS 結構數(shù)據(jù)庫完全標注,這表明候選結構為 3′-O-methyl-4′-methoxy-N-methylcoclaurine(如上圖所示)。
通過進一步分析,該節(jié)點連續(xù)損失了 NH3CH3、CH3OH 和 H2O,隨后發(fā)生了環(huán)裂解、α 裂解和 β 裂解,分別在 m/z 107.0496、137.0597、151.0757、175.0750、205.1098、235.0752、267.1017、299.1271 和 312.1590 處產(chǎn)生碎片離子。
經(jīng) Structure 數(shù)據(jù)庫鑒定,m/z 448.1963(tR = 1.6287)的結點為 N-methylnorcoclaurine 7-O-glucoside。另一個 m/z 312.1593 (tR = 7.3621) 節(jié)點則顯示了包含 1 個單芐基異喹啉在內的四個候選結構。與 m/z 344.1855 節(jié)點 (tR=7.6329) 相比,該節(jié)點在 m/z 190.0862 (C11H12NO2) 處存在碎片離子,表明這是一個亞甲基二氧基。
研究結果:基于深度神經(jīng)網(wǎng)絡,從 t-SNE 網(wǎng)絡的角度對比三大研究算法
與 MolNetEnhancer 相比,IMN4NPD 采用基于深度神經(jīng)網(wǎng)絡的 NP 分類工具 NPClassifier,來單獨分類分子網(wǎng)絡中的每個特征,而不是整個簇或分子家族。該研究使用了改進過的余弦相似度計算相似矩陣,并以此生成 t-SNE 網(wǎng)絡。同時,該研究還通過 NPClassifier 基于每個節(jié)點的 MS/MS 光譜數(shù)據(jù)對其進行分類,并將這些分類映射到 t-SNE 網(wǎng)絡中。
在傳統(tǒng)的分子網(wǎng)絡觀點中,異喹啉一般由三個大簇 (簇 A-C) 和一個小簇 (簇 D) 共同組成。從 t-SNE 網(wǎng)絡的角度來看,很明顯,異喹啉的四個集群節(jié)點被緊密分組,形成了不同的集群區(qū)域。但值得注意的是,從 t-SNE 網(wǎng)絡的角度來看,分子網(wǎng)絡中的簇 A 可以進一步分為兩個更小的簇。此外,t-SNE 可以有效定位異喹啉類節(jié)點,從而大大減輕了相關節(jié)點的結構解析工作。
異喹啉在 t-SNE 圖譜中的四個聚類區(qū)域
修正余弦相似度方法面對多種學修飾的化合物光譜存在局限性,該研究還選擇了 Spec2Vec 和 MS2DeepScore 等相似度算法,并以此生成 t-SNE 網(wǎng)絡?;?Spec2Vec,異喹啉依然在分子網(wǎng)絡中形成四大簇區(qū)。
但基于 MS2DeepScore,異喹啉的大簇 A 和 B 的節(jié)點間隔很近,形成了幾個聚類區(qū)域,但大簇 C 中的節(jié)點分散在了整張圖中,這為后續(xù)分析帶來了挑戰(zhàn)。
多種光譜相似度算法生成的 t-SNE 圖譜比較
一個有趣的現(xiàn)象是,m/z 296.1646節(jié)點 (tR = 11.54) 在修正余弦相似度和 MS2DeepScore 相似度的 t-SNE 圖中,均遠離異喹啉相關的節(jié)點聚類區(qū)域,但在基于 Spec2Vec 光譜相似度的 t-SNE 圖中,該節(jié)點與大簇 A 的聚類區(qū)域相鄰。這類自換節(jié)點可能代表了一類異喹啉化合物,在進一步比較后可確認該節(jié)點是阿樸啡類生物堿。
因此,化合物化學分類和 t-SNE 網(wǎng)絡,可分別提供關于特征的不同信息,一定程度上減少了假陰性的出現(xiàn)。
此外,基于 Spec2Vec 光譜相似度的 t-SNE 網(wǎng)絡,大簇 A 附近存在 m/z 298.1438 (tR = 7.02) 和 m/z 298.1438 (tR = 7.60) 兩個節(jié)點,這兩個節(jié)點是分子網(wǎng)絡中的自換節(jié)點和對節(jié)點。盡管沒有被歸類為異喹啉化合物,但它們與異喹啉大簇 A 結構相似。進一步分析可知,m/z 298.1438 (tR = 7.02) 是一種已知的阿樸啡類生物堿——nornuciferidine,m/z 298.1438 (tR = 7.60) 也顯示出與 nuciferine 和 nornuciferidine 相類似的阿樸啡類生物堿。
通過對以上三個節(jié)點的研究發(fā)現(xiàn),它們都屬于阿樸啡類生物堿,這與單芐基異喹啉類生物堿不同。在利用修正余弦相似度和 MS2DeepScore 相似度時,這三個節(jié)點遠離單芐基異喹啉類生物堿相關節(jié)點的聚類區(qū)域大簇 A,但基于 Spec2Vec,這三個節(jié)點卻可在大簇 A 附近被發(fā)現(xiàn)。
這種差異表明 Spec2Vec 光譜相似性在準確捕捉異喹啉類化合物相似結構方面的卓越能力。
人工智能在天然產(chǎn)物研究中的應用加速
近年來,受益于各種現(xiàn)代技術的迅猛發(fā)展,在天然生物活性分子的研究中涌現(xiàn)出了一大批基于 LC-MS/MS 和 NMR 技術,并集成生物信息學、代謝組學、計算機科學等多學科技術手段的新策略和新方法。尤其是,隨著人工智能和機器學習算法開始融入天然產(chǎn)物研究工作,進一步為研究人員帶來了新一輪的生產(chǎn)力革命。
最初,人工智能的應用集中在有機分子的數(shù)字化,以及使用降維技術繪制 NP 化學空間圖。后來,研究者通過開發(fā)機器學習二元分類器來預測 NP 的生物功能。如今,神經(jīng)網(wǎng)絡架構開始被用于基因組挖掘和分子設計,深度學習算法在藥物發(fā)現(xiàn)和分子信息學領域越來越受歡迎。
所以,我們可以看到,產(chǎn)學研各界近年來均加快了相關研究的步伐。2022 年,國家超級計算廣州中心就聯(lián)合中山大學、星藥科技、美國麻省理工學院和佐治亞理工學院,基于「天河二號」的強大計算和存儲能力,提出了一種深度學習驅動的生物逆合成路徑導航工具 BioNavi-NP。
而在企業(yè)界,天然產(chǎn)物的研究也在不斷加速。2023 年,天士力醫(yī)藥集團與華為云達成合作,雙方將結合天然產(chǎn)物現(xiàn)代化研究數(shù)據(jù)等,共建中醫(yī)藥領域垂直大模型。
然而,天然產(chǎn)物數(shù)據(jù)庫仍然是科研進程中的一大挑戰(zhàn)。當前,全世界主流的天然產(chǎn)物數(shù)據(jù)存儲庫,包括生物合成基因簇的最小信息 (MIBiG)、天然產(chǎn)物圖譜 (NP 圖譜)、全球天然產(chǎn)物分子網(wǎng)絡 (GNPS)、天然產(chǎn)品磁共振數(shù)據(jù)庫 (NP-MRD) 等,但這些數(shù)據(jù)庫的覆蓋率較低,并且存在較為常見的數(shù)據(jù)錯誤問題,這些都阻礙了人工智能在天然產(chǎn)物藥物發(fā)現(xiàn)方面的進展。
近年來,中國科學家屠呦呦、日本科學家大村智和愛爾蘭科學家 William C. Campbell 等多位研究者因在天然產(chǎn)物全合成方面的成就獲得了諾貝爾化學獎提名。毫無疑問,隨著天然產(chǎn)物的重要性不斷凸顯,人工智能在天然產(chǎn)物研究方面的融合也即將按下加速鍵。
歡迎掃碼關注深i科普!
我們將定期推出
公益、免費、優(yōu)惠的科普活動和科普好物!