英文标题:Identification of gut microbial bile acid metabolic enzymes via an AI-assisted pipeline
中文标题:通过人工智能辅助流程鉴定肠道微生物胆汁酸代谢酶
发表期刊:Cell
影响因子:42.5
研究背景
肠道微生物群通过生成多种活性代谢物深刻影响宿主健康与疾病,其中胆汁酸(Bile Acids, BAs)作为宿主与微生物间的关键信使,其代谢过程对维持代谢稳态至关重要。尽管代谢组学已鉴定出数百种微生物来源的胆汁酸,但其生物合成路径中相关酶的鉴定严重滞后,目前仅表征了不足10种细菌胆汁酸代谢酶。这一研究鸿沟限制了工程菌设计及针对胆汁酸相关疾病的干预策略。
近年来,计算生物学与人工智能(Artificial Intelligence, AI)技术的突破性发展加速了蛋白质功能的解析,例如AlphaFold2通过结构预测发现了未报道的单链脱氨酶,推动了基因编辑工具的应用。然而,AI在挖掘宿主-微生物互作中特异代谢酶的能力仍待验证。
本研究开发了首个AI辅助的胆汁酸代谢酶挖掘工具——BEAUT(Bile Acid Enzyme Announcer Unit Tool),通过蛋白质语言模型ESM2与神经网络分类算法,直接从宏基因组数据中筛选候选代谢酶。BEAUT基于已知胆汁酸代谢酶序列及其底物结合口袋的扩展数据进行训练,成功预测了60余万种潜在胆汁酸代谢酶,并验证出40多种未报道的代谢酶。此外,研究首次发现了一类依赖硫胺素二磷酸(Thiamine Diphosphate, ThDP)的新胆汁酸代谢酶——3-乙酰脱氧胆酸合成酶(3-AcetoDCA Synthetases, ADSs),其催化生成的3-乙酰脱氧胆酸(3-Acetodeoxycholic Acid, 3-acetoDCA)在人体粪便中普遍存在,可通过调节乳酸菌丰度影响肠道菌群组成。
这一成果不仅填补了微生物胆汁酸代谢酶的研究空白,更通过AI驱动的“自上而下”策略,为探索其他微生物来源代谢物的代谢酶提供了可扩展的框架,推动了微生物代谢与人类健康关联的深度解析。
研究结果
1.BEAUT平台的开发
BEAUT平台是一款利用深度学习(ESM2模型+神经网络)和多维筛选策略(EC编号+口袋相似性)的AI辅助预测工具,能够预测目标序列是否编码BAs代谢酶(图1A-C)。
在模型建立优化过程中,首先分析了8种BAs酶的复合物结构,发现BAs分子具有相似构象,倾向于结合体积≥1,000ų的口袋,暗示着相似底物结合口袋的酶可能属于BAs代谢酶。为验证这一假设,经由主要阳性样本过滤出的参考口袋相似性比较,发现使用BAs的酶比非使用酶的口袋相似性更高。基于此,样本蛋白质序列从7种肠道菌株中被筛选,将其提取过滤得到的查询口袋再通过PocketMatch计算与参考口袋的相似性(图1B),选择相似性≥0.7的序列进行数据增强,合并后去重,最终得到2,472个增强阳性样本,用于构建BEAUT模型。
通过五折交叉验证训练5个模型(图1C),选择最优模型AUPRC作为最终BEAUT模型。利用BEAUT模型对HMP参考基因组进行基于序列的虚拟酶筛选,经注释过滤后,预测出614,616条候选BAs代谢酶,将其聚类可分为118,599个簇,而其中的阳性序列分布在7类酶中(图1D-E)。在门水平,拟杆菌门(Bacteroidota)预测含最多BAs代谢酶(图1F);在属水平,Hungatella和Enterocloster的丰度较高,且不同菌株间预测阳性序列数量差异小(图1F)。所有预测酶整合为HGBME数据集,已通过网页服务器公开(https://beaut.bjmu.edu.cn)。
图1 BEAUT模型开发
2.BEAUT模型在菌株和酶水平上的评估
BEAUT模型在菌株和酶水平上对BAs代谢酶的预测准确性实验如图2A所示。在菌株水平,共培养108种肠道菌株与5种BA底物,底物包括胆酸(Cholic acid, CA)、鹅去氧胆酸(Chenodeoxycholic acid)、脱氧胆酸(Deoxycholic acid, DCA)、石胆酸(Lithocholic acid)和3-氧代脱氧胆酸(3-oxodeoxycholic acid, 3-oxoDCA),随后通过LC-MS分析BA代谢谱。其中,BA底物的减少量被用作菌株BA代谢能力的指标(图2B)。结果表明,菌株的BA代谢能力与BEAUT模型预测的BA代谢酶数量呈正相关(图2C)。
为进一步评估模型的预测能力,HGBME数据集中的102个酶被随机选取验证,同时将两个已知的BA酶作为阳性对照(图2D-F)。所选酶具有广泛的功能多样性,来源覆盖7个门和40多个属(图2D)。在这些候选酶中,47个酶能够以不同程度降解BAs,其中26个酶以DCA为底物,7个酶以CA为底物,20个酶可识别多种底物,能显著消耗2种或更多BAs(图2E-F)。
图2 在菌株和酶水平上评估BEAUT模型
3.在肠道微生物群中发现单酸3-酰化胆汁酸水解酶
近期研究表明,3-琥珀酰化胆酸(3-succinylated CA, 3-sucCA)由胆汁酸琥珀酰合成酶(BA acyl synthetase for succinyl, BAS-suc)合成。但有趣的是,BEAUT模型在未接受BAS-suc训练样本的情况下,成功召回了BAS-suc酶(图3A)。对BAS-suc蛋白簇的进一步验证揭示了多个此前未知的BAS-suc蛋白(图3B-C),这些蛋白与BE105类似,均能催化BAs与琥珀酸之间的反应,同时对不同BAs表现出广泛的底物选择性。
在基于BEAUT模型挖掘3-酰化胆汁酸的潜在调控通路时,单酸3-酰化胆汁酸,尤其是3-乙酰胆酸(3-acetylcholic acid, 3-aceCA),它们的浓度与特定肠道共生菌的丰度呈显著负相关(图3D),暗示肠道微生物群中存在3-酰化胆汁酸的水解通路。此外,培养与3-aceCA浓度呈最强负相关的Hungatella hathewayi菌株时,发现其能高效降解3-aceCA(图3E)。
当利用BEAUT预测H. hathewayi中的潜在BAs代谢酶时,20个被分类为羧酸酯水解酶的候选酶被筛选验证,最终鉴定出功能酶,将其命名为H. hathewayi的单酸3-酰化胆汁酸水解酶(HhMABH)(图3F)。动力学分析结果显示,HhMABH对3-aceCA的米氏常数(Km)为0.39 mM(图3G)。在不同的3-酰化胆酸(3-acylCAs)的底物适应性中,HhMABH可水解3-aceCA、3-丙酰胆酸(3-propionylcholic acid)和3-丁酰胆酸(3-butyrylcholic acid),尤其对前两者具有活性,但对3-sucCA无活性(图3H)。
图3 MABH负责3-aceCA的水解
4.ADS催化形成此前未被表征的骨架胆汁酸3-acetoDCA
已知,细菌对BAs的修饰主要发生在活性功能基团上,而非涉及碳骨架的改变。然而,碳骨架的修饰亦可能导致分子生物活性的巨大差异。迄今为止,替代骨架BAs的存在仍未知。在后续实验中,一个3-oxoDCA代谢酶被重点研究,其属于一类ThDP依赖酶。将11个与其相关的簇酶过表达后,发现其中大多数能以不同效率消耗3-oxoDCA,但对其他BAs底物影响较小(图4A-B)。
当研究酶BE1对3-oxoDCA的转化产物时,一个特殊的目标化合物被分离纯化,并通过核磁共振谱分析其分子结构(图4C-D),发现3-oxoDCA底物的3号碳原子被乙基酮基延伸(图4E),之后确认其为3-acetoDCA(图4F)。同样地,与BE1相关的11个簇酶,发现所有酶均能生成3-acetoDCA,并将其命名为ADS(图4G-H)。此外,在实验室肠道菌群菌株库(108个物种)中,发现卵形拟杆菌(Bacteroides ovatus)能产生最高水平的3-acetoDCA(图4I),且不同B. ovatus菌株均能生成该化合物。通过同源比对, ADS同源蛋白EDO13458.1(BE147)在B. ovatus ATCC 8483基因组中被鉴定出,后经同源重组失活Boads基因构建靶向基因突变体(BoΔads)。与野生型B. ovatus ATCC 8483相比,BoΔads菌株完全丧失3-acetoDCA生成能力(图4J-K),表明BoADS是B. ovatus中3-acetoDCA的生成关键酶。
图4 ADS催化未报道的骨架BA 3-acetoDCA的形成
5.BoADS的晶体结构和催化机理
BoADS是一种ThDP依赖酶,属于DXPS样亚家族,作为BA代谢中尚未报道的酶,其具有特殊代表性。BoADS以BA为底物(图5A-C),在最适pH和温度条件下,其对底物的Km为95.03 μM(图5C)。
为阐明BoADS的催化机制,ThDP结合的复合物结构(BoADSThDP)被解析。结果显示,BoADSThDP的整体结构与DXPS相似,包含三个明确的结构域(I、II和III)(图5D)。后经验证,在BoADS催化过程中,辅因子ThDP首先与底物丙酮酸反应生成Breslow中间体,随后与另一个底物3-oxoDCA反应。在底物结合模式中,Breslow中间体的羟基与H44和H394形成氢键,而3-oxoDCA的C3-羰基、C12-羟基和C24-羧基分别与H44、Y102和W263形成氢键(图5E)。更重要的是,3-oxoDCA的烃环与W263和M389形成“夹心”疏水相互作用(图5E)。H44A、H394A、Y102A、W263A和M389A突变体均表现出催化活性下降或丧失,也进一步验证了这些关键残基在底物结合中的作用(图5F)。
基于上述晶体结构与定点突变分析,作者提出了BoADS的催化机制(图5G):ThDP辅因子在结构域I和II间紧密结合,攻击丙酮酸的α-酮基后脱羧生成Breslow中间体,随后攻击3-oxoDCA的3-酮基,最终释放ThDP生成3-acetoDCA。
图5 BoADS-ThDP的晶体结构及其催化机理
6.3-acetoDCA在人类人群中广泛存在,并对肠道微生物群具有特殊影响
为验证3-acetoDCA是否自然存在于人类肠道中,通过解析三个独立人群队列(美洲、欧洲、中国)的公共数据库宏基因组数据,发现Boads基因在全球不同地区广泛分布(图6A–C)。通过代谢组学分析,发现健康志愿者粪便样本中存在3-acetoDCA(图6D)。同时,结合宏基因组分析,3-acetoDCA浓度与Boads基因读数及卵形拟杆菌(B. ovatus)丰度呈正相关(图6E-F)。
此外,3-acetoDCA可促进乳杆菌(Lactobacillus spp.)的生长(图6G-J),说明其可通过调节肠道菌群组成影响宿主功能。具体而言,在体外实验中,3-acetoDCA以剂量依赖性方式特异性促进加氏乳杆菌(L. gasseri)的生长(图6G),而其他研究较多的胆汁酸对L. gasseri生长无促进作用;在体内实验中,3-acetoDCA处理显著增加了乳杆菌的丰度(图6H-J)。另外,在粪便样本中,3-acetoDCA浓度与乳杆菌丰度呈显著正相关(图6K)。
为解析3-acetoDCA促进L. gasseri的生长机制,不同营养物质的半定义培养基被采用。结果表明,在无额外营养补充时,3-acetoDCA几乎无促进L. gasseri生长的作用,而当补充精氨酸或鸟氨酸时,3-acetoDCA显著促进L. gasseri生长(图6L)。
考虑到L. gasseri等乳杆菌可产生具有改善代谢疾病潜力的色氨酸衍生物,体内3-acetoDCA处理对色氨酸衍生物水平的影响被进一步评估(图6M)。结果发现,被灌胃给予3-acetoDCA的小鼠可显著增加L. gasseri丰度(图6N),并提高粪便和结肠组织中的吲哚-3-乳酸浓度(图6O-P)。
图6 3-acetoDCA广泛存在于人类中,并促进乳酸杆菌(Lactobacillus)的扩增
研究结论
本研究中,一种人工智能辅助的胆汁酸酶预测工具(BEAUT)被开发,用于识别候选微生物BA修饰酶。BEAUT结合蛋白质语言模型ESM2进行蛋白质功能表征,并利用密集神经网络从宏基因组数据中分类胆汁酸代谢酶。该工具通过学习已知胆汁酸代谢酶的序列及其具有类似底物结合口袋的增强序列,从而具备筛选胆汁酸修饰酶的能力。利用该平台,使得人类肠道微生物基因组序列中了超过60万个潜在胆汁酸代谢酶能够被预测。在此基础上,40多个未记录的胆汁酸代谢酶的功能被验证,例如MABH,其负责单酰基胆汁酸(如3-acylCA)的水解途径。此外,作者还发现了一类此前未知的ThDP依赖型胆汁酸代谢酶,命名为ADS,因其能合成一种新型骨架胆汁酸3-acetoDCA,其形成涉及碳-碳键偶联反应。同时,本研究也证实3-acetoDCA在人体粪便样本中普遍存在,并在生理浓度下通过增加乳杆菌属(Lactobacillus spp.)丰度调节肠道菌群组成。总的来说,BEAUT工具的应用及未报告胆汁酸代谢酶的发现,极大扩展了人们对微生物胆汁酸代谢及其化学多样性的认知。相较之下,传统研究范式通常从代谢物鉴定出发去反向挖掘相关酶,而BEAUT则通过直接探索胆汁酸代谢酶,提供了可扩展的框架,用于研究其他微生物来源代谢物的代谢酶。
若您对本研究中的胆汁酸类物质感兴趣,百趣生物自主研发了一套高通量靶标检测69种胆汁酸的方法,该方法使用同位素内标法进行绝对定量,具有定量准、覆盖广、灵敏度高、可重复性等特点。我们诚挚邀请对胆汁酸绝对定量分析有需求的科研工作者与我们联系,共同探讨合作机会。