糖組學(xué)人工智能的實(shí)施始于 20 世紀(jì) 90 年代的質(zhì)譜分析流程,其中應(yīng)用機(jī)器學(xué)習(xí)算法來(lái)預(yù)測(cè)糖肽片段強(qiáng)度 [2]。隨著對(duì)蛋白質(zhì)糖基化模式的日益重視,研究人員希望通過(guò)研究 N-糖基化和較少研究的 O-糖基化的氨基酸序列來(lái)更詳細(xì)地表征糖基化位點(diǎn)。盡管已知聚糖連接發(fā)生在絲氨酸或蘇氨酸的氧上,但鄰近氨基酸對(duì) O-糖基化的作用尚未闡明。
在第一代人工智能工具時(shí)代,糖基化位點(diǎn)數(shù)據(jù)集是從組織樣本和活檢中的蛋白質(zhì)中收集的,這些數(shù)據(jù)可在UniPep [3] 和N-GlycositeAtlas [4] 等數(shù)據(jù)庫(kù)中獲取。此外,還開(kāi)發(fā)了NetNGlyc [5] 和YinOYang [6] 等人工神經(jīng)網(wǎng)絡(luò)工具,以使用已知的聚糖數(shù)據(jù)作為訓(xùn)練集來(lái)預(yù)測(cè)新的 N- 和 O- 糖基化位點(diǎn)。 2005年至2015年間,神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力通過(guò)支持向量機(jī)和隨機(jī)森林算法得到了提高。基于這些算法,GlycoMine等軟件解決方案[7]使用基于氨基酸序列以及聚糖的結(jié)構(gòu)和功能特征的多層預(yù)測(cè)來(lái)改進(jìn)糖基化位點(diǎn)預(yù)測(cè)。
如今,隨著基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)以及計(jì)算方法的結(jié)合,人工智能對(duì)糖生物學(xué)的影響不斷擴(kuò)大,極大地增強(qiáng)了位點(diǎn)預(yù)測(cè)和聚糖分析。例如,Moon 等人。開(kāi)發(fā)了一種隨機(jī)森林算法,該算法采用聚糖立體異構(gòu)體的空間和電子參數(shù)來(lái)準(zhǔn)確預(yù)測(cè)特定異構(gòu)體的選擇性結(jié)合[8]。安東尼庫(kù)迪斯等人。在基于系統(tǒng)的方法中使用人工神經(jīng)網(wǎng)絡(luò),其中開(kāi)發(fā)了化學(xué)計(jì)量模型來(lái)預(yù)測(cè)糖基化酶通量和隨后的聚糖豐度[9]。
與此同時(shí),其他平臺(tái),例如Glycowork,專注于處理廣泛的聚糖數(shù)據(jù),以揭示生物體特異性的聚糖譜 [10]。
除了位點(diǎn)預(yù)測(cè)和分析之外,人工智能工具還有助于更好地理解聚糖和細(xì)胞表型之間的復(fù)雜關(guān)系。秦等人。引入了一種算法,該算法使用單細(xì)胞 SUGAR-seq 數(shù)據(jù)來(lái)預(yù)測(cè)導(dǎo)致 N-聚糖分支的基因以及不同分支對(duì)小鼠模型中 T 細(xì)胞亞型的影響 [12]。有趣的是,這些基因在細(xì)胞亞型之間的差異表達(dá)分析中并未被發(fā)現(xiàn),這凸顯了深度學(xué)習(xí)在表型分析中的價(jià)值。
另一個(gè)令人興奮的工具是GlyCompareCT,顧名思義,它通過(guò)將不同數(shù)據(jù)集中的聚糖基序分解為聚糖子結(jié)構(gòu)來(lái)比較它們的組成和豐度 [13]。這允許用戶從子結(jié)構(gòu)生成完整的圖案集。 GlyCompareCT 基于 Python 的特性使其成為一個(gè)用戶友好的工具,可以通過(guò)命令行運(yùn)行。
雖然多種糖信息學(xué)工具可以有助于我們對(duì)糖基化的理解,但需要做更多的工作將下一代機(jī)器學(xué)習(xí)整合到糖生物學(xué)中。特別是,深度學(xué)習(xí)工具在處理大型非結(jié)構(gòu)化數(shù)據(jù)集時(shí)非常有用。AlphaFold [14] 是利用深度學(xué)習(xí)來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)(包括其可能的折疊狀態(tài))的開(kāi)創(chuàng)性項(xiàng)目之一。也就是說(shuō),該平臺(tái)只能處理蛋白質(zhì)序列,因此缺乏對(duì)糖基化和其他翻譯后修飾的預(yù)見(jiàn)性。
最近,深度學(xué)習(xí)方法開(kāi)始用于從序列數(shù)據(jù)推斷糖基轉(zhuǎn)移酶的結(jié)構(gòu)和功能。陶哈萊等人。開(kāi)發(fā)了一個(gè)工作流程,使用監(jiān)督式深度學(xué)習(xí)從蛋白質(zhì)序列推斷糖基轉(zhuǎn)移酶的折疊狀態(tài),這使他們能夠預(yù)測(cè)其糖供體特異性[15]。隨后,新的工具,如GlyNet [16]、SweetTalk [17] 和glyBERT [18] 開(kāi)始出現(xiàn),對(duì)支鏈和非線性聚糖的合成具有改進(jìn)的預(yù)測(cè)價(jià)值。相同的工具也可用于預(yù)測(cè)蛋白質(zhì)糖基化位點(diǎn)[19]。
糖生物學(xué)的主要挑戰(zhàn)之一是缺乏廣泛的糖組學(xué)數(shù)據(jù),這阻礙了新聚糖結(jié)構(gòu)的發(fā)現(xiàn)。下一代人工智能模型可以通過(guò)結(jié)合聚糖結(jié)構(gòu)之外的新功能來(lái)克服這個(gè)問(wèn)題。這些特征可以從組學(xué)數(shù)據(jù)中提取,這些數(shù)據(jù)提供有關(guān)上游(例如前體單糖)和下游過(guò)程(對(duì)信號(hào)通路的影響)的信息。由于幾種聚糖可以共享共同的合成步驟或表現(xiàn)出類似的下游效應(yīng),因此這些知識(shí)可以顯著擴(kuò)大預(yù)測(cè)聚糖的范圍[20]。
最后,可以利用機(jī)器學(xué)習(xí)工具聯(lián)盟來(lái)了解宿主與病原體的相互作用。特別是,預(yù)見(jiàn)跨物種傳播的能力可以幫助規(guī)避未來(lái)流行病的影響。首先,評(píng)估不同物種的相似聚糖結(jié)構(gòu)可以揭示宿主受體-聚糖相互作用,從而允許病毒進(jìn)入,從而了解哪些生物體容易受到病毒入侵。它還可以揭示病原體如何利用糖基化來(lái)模仿宿主聚糖來(lái)逃避免疫反應(yīng)。此外,輸入的組合,例如人類和所研究的動(dòng)物之間的聚糖相似性和系統(tǒng)發(fā)育距離,可以告訴我們導(dǎo)致宿主轉(zhuǎn)向人類的致病突變的可能性。初步模型,例如SweetNet,利用下一代機(jī)器學(xué)習(xí)工具(例如圖卷積神經(jīng)網(wǎng)絡(luò))來(lái)識(shí)別流感病毒和輪狀病毒上的聚糖受體,同時(shí)揭示結(jié)合特異性[21]。這種方法可以推廣到其他幾種病毒蛋白,以解釋它們?nèi)绾卧谌祟愔袀鞑ァ?/span>
人工智能模型的持續(xù)開(kāi)發(fā)和多組學(xué)的整合對(duì)于解決糖生物學(xué)中的各種問(wèn)題具有不可估量的價(jià)值。這些包括但不限于糖基轉(zhuǎn)移酶結(jié)構(gòu)、蛋白質(zhì)上的糖基化位點(diǎn)、復(fù)雜聚糖對(duì)細(xì)胞功能的影響、病原體-宿主相互作用和免疫腫瘤學(xué)(即腫瘤微環(huán)境)。從人工智能模型中獲得的新見(jiàn)解將幫助研究人員進(jìn)行更有針對(duì)性的研究,以了解糖基化在健康和疾病中的作用。