
英文标题:Untargeted metabolomics and machine learning unveil the exposome and metabolism linked with the risk of early pregnancy loss
中文标题:非靶标代谢组学与机器学习揭示了与早期妊娠丢失风险相关的暴露组及代谢变化
发表期刊:Journal of Hazardous Materials
影响因子:11.3
研究背景
早期妊娠丢失(Early Pregnancy Loss, EPL)是妊娠早期(妊娠前12周内)发生的自然流产,占所有流产病例的25%。作为最严重的不良妊娠结局之一,EPL不仅影响妊娠维持,更是导致人类生育能力下降的核心因素。
近几十年来,EPL的临床发病率和患病率持续上升,对社会和个人健康造成显著负担。
研究表明,除遗传因素外,环境暴露(如内分泌干扰物、空气污染物、有毒金属)是放大EPL风险的关键外部驱动因素。新兴污染物(Emerging Contaminants, ECs)因其环境持久性和潜在健康风险,受到广泛关注——它们广泛存在于消费品中,包括妊娠期间的暴露。
流行病学证据表明,妊娠期接触ECs(如邻苯二甲酸盐、酚类、全氟烷基/多氟烷基物质)与自发流产风险显著相关,但混合ECs暴露的具体影响、关键风险物质及背后的分子机制仍不明确。传统实验方法(如细胞模型、动物实验)虽可用于研究暴露相关损伤,但非靶标代谢组学则能通过分析内源性代谢物的全谱变化,成为探索暴露与妊娠结局关联的更有力工具。
近年来,代谢组学与机器学习(Machine Learning, ML)的结合在疾病预测中展现出巨大潜力,尤其在处理复杂数据时优于传统统计方法。
本研究基于医院开展的病例对照设计,整合了三大核心数据域(暴露生物标志物、效应生物标志物、内源性代谢物),通过随机森林(RF)、极端梯度提升(XGBoost)等四种ML算法,系统解析了ECs暴露与EPL风险的关联,并揭示了其干扰的代谢通路与毒性机制。

研究结果
01早期妊娠丢失相关三维暴露谱的特征分析
在37种目标化学物中,有21种在所有参与者的血清样本中检测率超过50%,主要为全氟和多氟烷基物质(PFASs)、邻苯二甲酸酯代谢物(mPAEs)和个人护理产品化学物(PCPs)等三类,表明早孕期普遍存在多种ECs的暴露。
随后,系统分析EPL患者与健康孕妇(对照组)的环境化学物暴露、生物标志物及代谢组学差异,结果显示:
1.与健康对照组相比,EPL组化学物暴露水平显著升高。其中,有6种化学物在EPL组中表现出显著更高的水平(图 1A),且在内的4种mPAEs均为DEHP的代谢物,其在EPL组中检出率可达100%,暗示着EPL病例在早孕期经历了更高的DEHP暴露。
2.EPL组的两个关键妊娠激素(β-HCG、FSH)水平均出现显著异常,表现为β-HCG降低和FSH升高(图 1B)。
3.在注释的2057种血清代谢物中(图 1C),与健康对照组相比,EPL组有256种代谢物显著上调和128种显著下调。这些差异代谢物以脂质为主,并主要富集于脂质代谢和氨基酸代谢等关键通路中。
4.DEHP的三种代谢物(MCMHP, MEHHP, MECPP)与大量的内源性代谢物(特别是脂质代谢物)表现出比其他化学物更强的关联性(图 2),表明DEHP暴露可能通过干扰脂质代谢等途径影响妊娠结局。
图1. 多种母体暴露特征的检测结果

图2. 多种母体暴露特征间的相互关联性
02早孕期流产风险预测模型
通过两种数据集(原始数据集与差异特征数据集)开发出EPL风险预测模型,并基于SHAP解释和stacking方法优化了模型性能(图 3)。
结果显示:
1.与包含所有特征的原始数据集相比,仅包含差异特征的数据集构建的预测模型在三种数据类别(化学物、代谢物、生物化学标志物)中均展现出更高的准确性;
2.在三种数据类别中,基于化学物的模型(如全氟和多氟烷基物质、邻苯二甲酸酯代谢物)性能最优,其最优的随机森林(RF)模型在五个指标中均达到90%的准确率;
3.若将三种最优模型(化学物、代谢物、生物化学标志物)作为基础学习器,随机森林(RF)作为元学习器,整合模型的准确率高达95%。

图3. 12种模型在测试集上的性能表现
03早孕期流产中的代谢变化与环境化学物的干扰作用
通过构建化学物、生物化学标志物与代谢物的相关网络,并结合代谢通路富集分析及线性回归模型,ECs与EPL相关代谢扰动的核心关联被系统性揭示。
主要结果如下:
1.相关网络分析(图 4A)显示,三种DEHP代谢物(MCMHP、MEHHP、MECPP)与脂质分子(如甘油磷脂、脂肪酰基等)之间存在显著的强关联,凸显出DEHP暴露对脂质代谢的直接影响。
2.在与EPL相关的代谢通路分析中,95个关键代谢物被筛选,将其分类和通路富集分析(图 4B),可以发现,这些通路均与氨基酸和脂质代谢密切相关。
3.基于广义线性回归模型的分析,脂质代谢物(如甘油磷脂、脂肪酰基)与前四种关键化学物的浓度之间存在高度显著的关联,暗示着ECs可能通过脂质代谢途径影响妊娠结局。
4.三种DEHP代谢物(MCMHP、MEHHP、MECPP)共同干扰了多个脂质代谢相关通路,包括甘油酯代谢、醚脂代谢、鞘脂代谢及泛酸和辅酶A合成,表明其暴露可能通过多通路协同作用加剧妊娠风险(图 4C)。

图4. EPL患者与对照组的代谢变化
04早期妊娠丢失风险的潜在生物标志物
为筛选能够作为预测EPL风险最有效的生物标志物,基于SVM模型的ROC曲线被生成。
结果发现,C17-sphinganine的表现尤为突出(图 5A-B),显著高于EPL已建立的临床生物标志物β-hCG的AUC值。
此外,EPL患者的血清中C17-sphinganine水平也显著高于健康对照组,表明其可能比β-hCG更有效地预测流产风险。
透过靶向定量(MRM-MS)再次验证,EPL组与健康对照组的C17-sphinganine水平存在显著差异(图 5C-D)。
综上,C17-sphinganine是一种极具潜力的EPL预测候选标志物。

图5. C17-sphinganine作为EPL潜在生物标志物的预测能力
研究小结
通过四种机器学习算法构建模型,化学暴露模型(最优 RF 算法)准确率达 90%,多维度数据整合模型(stacking 方法)准确率提升至 95%;筛选出C17-鞘氨醇为EPL潜在生物标志物,其发现队列AUC=0.93、验证队列AUC=0.84,显著优于β-hCG(AUC=0.63);证实EPL与脂质/氨基酸代谢紊乱相关,DEHP 及其代谢物(MEHHP、MCMHP、MECPP)通过干扰多条脂质代谢通路加剧EPL风险。研究存在样本量小、化学物检测范围有限的局限,未来需扩大样本与检测范围,为 EPL 早期预警及公共卫生干预提供科学依据。
百趣生物暴露组学高通量靶标定量:实现了单样本同时检测近400种化合物的突破,全面覆盖抗生素、药物和个人护理产品、有机磷酸酯、多氟和全氟烷基物质、邻苯二甲酸酯、酚类污染物等11大类环境污染物。这项技术突破使我们在复杂基质样本分析中保持优异的抗干扰能力和重现性,为暴露组学研究提供了坚实的技术保障。