更好的糖链分析表征解决方案
Better  Solutions  For  Glycoanalysis

<行业新闻>Nat. Methods.|通过深度学习从串联质谱分析聚糖结构

来源于微信公众号@谢然课题组

大家好,今天分享的是一篇发表在Nature Methods上的文章,标题是“Predicting glycan structure from tandem mass spectrometry via deep learning”。本文的作者是来自瑞典哥德堡大学的Daniel Bojar,该课题组的主攻方向是机器学习与系统糖生物学。


b7e6700931f240e72086207d552b2fbe.png



复杂碳水化合物的确切结构通常是介导其功能的关键,例如唾液酸仅在特定的构型连接上促进流感感染。从生物标志物到机理理解,结构分离与整合和使用聚糖信息,与生物医学研究息息相关。在系统生物学的背景下,聚糖通常通过基于质谱(MS)的糖组学进行分析。目前,聚糖的结构测定是半手动的,逐个结构进行。由于不同的聚糖结构可以产生相同的质量数,因此通常通过液相色谱(LC)分离结构异构体,然后通过MS分裂成更小的亚结构,在概念上类似于鸟枪法测序。当前深入的工作流程很难并行化,需要在分辨率和规模之间进行一般权衡。

最近在相关领域,特别是蛋白质组学方面的努力,在MS分析中采用了可扩展的深度学习策略。蛋白质组学与糖组学有部分相似的挑战,例如,给定碎片离子的前体结构阐明。作者认为,将类似的方法转化为结构糖组学,如生物合成约束,并建立在糖组学分析多年积累的工作基础上,可能是该领域和糖组学在更广泛的生命科学中的应用的重大飞跃。

作者在本文中提出了一个可扩展且准确的工作流程,以深度学习模型CandyCrunch为中心,用于使用串联质谱(LC–MS/MS)数据从液相色谱法预测聚糖结构。CandyCrunch使用来自不同实验装置的大规模串联谱图集,以高精度(~90%)预测聚糖结构。将其嵌入到下游工作流程中,将预测转换为可解释的结果,进一步降低误报率,并估计相对丰度,准确快速。利用这一点在分子动力学模拟的支持下,大规模地发现了诊断片段和更复杂的裂解行为。最后,注释了新的糖组,大规模分析了生物合成约束,并证明了此方法可用于高通量糖组学。


CandyCrunch预测聚糖结构

MS/MS中的碎裂模式和倾向可以预测聚糖结构,因此作者开始通过机器学习来学习这种关联。为此,作者收集并整理了一组大量带注释的LC-MS/MS谱图,这些谱图来自聚糖(图1a,b)。该数据集也将成为糖组学数据驱动方法的宝贵资源,旨在为当前的糖组学数据提供具有代表性的视图,共有来自>2,000个糖组学实验的近500,000个标记的MS/MS光谱,涵盖所有主要的真核聚糖类别(N-连接、O-连接、鞘糖脂、牛奶寡糖)和最常见的糖组学实验设置。

CandyCrunch是一种适合MS数据的模型架构。由于离子模式等实验参数会极大地改变碎裂模式,因此它使用MS/MS谱图、保留时间、母离子m/z和实验参数作为输入,并预测聚糖排名作为其输出(图1c)。CandyCrunch可以很容易地在典型的笔记本电脑上使用,目前的分档策略降低了质谱仪的有效分辨率。然而,以更高的分辨率分析数据,更接近真实的仪器分辨率,并不能产生更高的准确性。此外,捕获微小的质量差异,例如CH之间的质量差异,将需要不切实际的精细分箱,并且由于训练数据集中大量低分辨率数据而无效。该模型是应用于原始文件(例如.mzML或.mzXML文件)的管道的一部分,该管道根据质量和保留异构体对预测进行分组,并进一步利用诊断离子等对预测进行调整(图1d)。

如果原始文件中有母离子强度,则该管道还可以估计相对丰度。这些丰度与LC峰面积积分获得的丰度密切相关。但是,重叠的异构体峰可能会导致其定量的不确定性。总体而言,CandyCrunch性能卓越,在独立测试集中排名靠前的结构预测中,准确率为~90%(图1e)。在各聚糖中的表现相当,只是在全甲基化聚糖等数据较差的类别上性能较低。

CandyCrunch按聚糖序列和聚糖类别学习的光谱表示(图1f)该模型已经学会了适应实验变异性。此外,结构相关的聚糖,即使在同一类中,也倾向于在学习的表示空间中聚集在一起。这可以通过将学习到的聚糖对表示的余弦距离与其结构距离进行比较来量化。

CandyCrunch从根本上说是独立于数据库的,但可以通过利用数据库的方法进一步增强,例如在糖工作中定义的方法,以增强下游的预测。通过仔细选择合适的参考结构子集(例如,按分类学、聚糖类别或组织),可以提出无法解释的光谱的匹配。然后对这些潜在的匹配进行交叉检查,以进行诊断离子,并按生物合成与真实预测的相容性进行排名。应该指出的是,该过程仍然平衡了生理聚糖的理论限制与在生物样品中遇到新结构的现实。最终的推理工作流程也包含后一种扩展,从而产生了研究人员可以进一步研究的排名预测输出(图1)。

此外,大多数方法只维持了最短的时间,不再现实地可及。因此,作者将 CandyCrunch 与专门用于构建这些替代方法的单个原始文件进行比较,同时在训练期间将它们排除在外。尽管如此,与Glycoforest等最先进的方法直接比较,在具有挑战性的鱼粘蛋白聚糖上,CandyCrunch 表现出与手动专家注释更大的重叠(图1)。

c101a82abb9194235260fdffda5b95a0.png

图1. 通过深度学习预测聚糖结构


CandyCrumbs 促进自动诊断离子发现

当由人类分析时,片段离子通常通过Domon-Costello命名法进行注释,并用于阐明聚糖的结构。虽然有些程序可以自动分配,但它们要么只能通过图形用户界面访问,要么只能为简单的片段离子提供注释。因此,作者决定实现一个基于Python的详尽解决方案CandyCrumbs来解决这个问题。给定候选聚糖序列和片段峰,CandyCrumbs可以自动快速地注释Domon-Costello和IUPAC命名法中的片段离子(图2a)。

参考光谱通常用作半手动注释中的高质量示例。由于“频谱质量”是一个定义不清的主观特征,作者目的是通过使用CandyCrunch的校准预测置信度来量化这一方面。然后,从数据集中提取了给定结构的数百到数千个高质量光谱,并在异构体之间进行了高效的统计比较。这确定了拓扑结构不同(图2b,c)和相同(图2d,e)异构体的许多诊断离子和/或比率,具有较大的效应大小。这也扩展到其他聚糖类,例如,有助于检测聚糖骨架之间连接的保守断裂差异(图2f,g)。

同一异构体的Neu5Ac和Neu5Gc版本之间的相似性(图2d,e)表明了裂解倾向的分子决定因素。因此,作者首先分析了所有高质量的O-聚糖光谱,并列了含有GalNAcα1-3或GlcNAcβ1-3的成分匹配聚糖,证实了整体范围内的系统性裂解倾向。


d71997d3607f5370a08ce2b5f74d4614.png

图 2. 使用 CandyCrumbs 发现诊断碎片


分子动力学支持诊断碎片化

在上述场景中(图 2d,e),得到的结论是GlcNAcβ1-3(Siaα2-6)GalNAc沿HexNAc-HexNAc轴碎裂,而GalNAcα1-3(Siaα2-6)GalNAc沿Sia-HexNAc键碎裂。为了阐明这些分子的结构特性如何导致这些碎裂行为的差异,对两种异构体进行了分子动力学模拟。GlcNAcβ1-3(Siaα2-6)GalNAc聚糖的碎裂模式显示出电荷诱导的碎裂机制(图2d,e)。此外,作者还观察到了末端唾液酸的羧酸部分与末端 HexNAc 糖的 C6 羟基氢相互作用的证据(图 3). 相互作用采样了 GlcNAcβ1-3(Neu5Acα2-6)GalNAc 累积 2 μs 模拟的 11.9%。因此,这表明 GlcNAcβ1-3(Neu5Acα2-6)GalNAc 的电荷诱导碎裂机制是由于从末端 HexNAc 糖中去除质子,从而导致沿 HexNAc-HexNAc 轴的碎裂。相反,GalNAcα1-3(Neu5Acα2-6)GalNAc的模拟无法对这种相互作用进行采样(发生率为<0.1%)。结果,该聚糖的碎裂沿Neu5Ac-HexNAc键发生。

此外,在两种聚糖的电离过程中,还原β消除将导致还原端GalNAc还原为醛糖醇。由于这种线性化结构可能会增加灵活性,作者还对两种具有线性还原GalNAc的聚糖进行了分子动力学模拟。这些模拟产生了与前面描述的相似的见解。在还原的GlcNAcβ1-3(Neu5Acα2-6)GalNAc聚糖中,末端唾液酸的羧基与末端HexNAc糖的C6羟基氢在6.8%的模拟时间内相互作用。同样,还原的GalNAcα1-3(Neu5Acα2-6)GalNAc无法对这种相互作用进行采样(发生率为<0.1%)。

因此,得出结论,鉴定的碎裂行为可用于区分这两种异构体,这意味着CandyCrunch 和 CandyCrumbs 驱动的方法来区分基于诊断碎片行为的非常接近的结构异构体,而不仅仅是单个诊断离子或比率,更类似于科研工作者的手动区分。



3e9df4a1388b26ef1765abaf355ba6b3.png

图3. 分子动力学揭示了碎裂机制


通过 CandyCrunch 和 CandyCrumbs 获得新的生物学见解

为了实现人工智能辅助的糖组学,作者的平台具有节省时间,样品分析更全面等优势,增强了人类分析人员的能力。

为了证明开发的方法应用于真正新颖的样品,作者分析了南方蓝鳍金枪鱼(Thunnus maccoyii)的血清N-glycome,该血清在GPST000182内测量。50多种聚糖的结构,包括高甘露糖、杂交和复杂结构,具有 GlcNAc 平分、核心和天线岩藻糖基化、Neu5Gc 和多触角 N-聚糖等特征(图4a)。

作者还想从聚合糖组学研究中获得新的见解。为此,作者重复使用了图中提到的总共250,000个O-聚糖光谱。构建生物合成网络,该过程填补了观察到的结构的生物合成中未观察到的中间体的空白。这里的一个关键好处是,所有数据集都由同一个注释者(CandyCrunch)进行分析,从而消除了异质性。

然后,通过对网络的进一步分析,可以比较糖基转移酶的反应顺序,从而增强了半乳糖基转移酶的高度显性。将生物合成网络分解为群落,揭示了几个保守的簇,这些簇是模块化的,发生在我们的许多数据集中。进一步研究发现,这些簇对应于O-聚糖核心结构及其各自的生物合成延伸(图14d)。总的来说,这些被证明是相对模块化的。作者设想,将许多网络快速分解为生物合成子类别将有助于比较和理解这些不同O-聚糖核心中暴露的最终末端基序,以及它们的生物合成。

作为概念验证,为了证明 CandyCrunch 进行高通量分析的能力,作者预测了急性髓系白血病(AML) 细胞系和分化的结直肠癌细胞系(CaCo-2)。通过总共 103 个糖组学原始文件进行该分析,可以证明预测的 AML 和结直肠癌细胞系的糖组形成不同的簇(图4e),两者都与GPST000256中使用的空白分开。然后,进行了差异聚糖表达分析,以研究这些簇的区别。虽然存在相当大的簇内异质性,但该分析表明,结直肠细胞系平均更富集含有岩藻糖基化半乳糖和残余 N-聚糖的结构,而 AML 细胞系表现出更高水平的唾液酸化聚糖和 Lewis 结构(图 4f)。这组分析表明,CandyCrunch可以应用于大型糖组学测量,并最终与其他糖工作功能结合使用,以直接从LC-MS/MS原始文件中揭示失调的聚糖和聚糖基序。



71386293400602578d51535bba935e49.png

图4. 从 CandyCrunch 预测中得出生物学见解


总之,作者在这里提出了可推广的方法,用于(1)使用深度学习从LC-MS/MS数据中预测聚糖结构(CandyCrunch)和(2)自动注释高阶串联质谱中的片段离子(CandyCrumbs)。CandyCrunch和CandyCrumbs都适合高通量使用,可以扩展到大型数据集以及极其多样化的聚糖和实验设置。






京堂生物科技(上海)有限公司
JingTangBio(Shanghai) Co., Ltd.

热线电话: 400 100 6462
电子邮箱: support@jingtangbio.com