高谦教授团队基于机器学习集成算法优化结核分枝杆菌的分子药敏检测
  • 发布时间:2025年04月09日

2025年3月,深圳市第三人民医院/国家感染性疾病临床医学研究中心高谦教授团队,在Genome Medicine杂志上发表了为题为“Advantages of updated WHO mutation catalog combined with existing whole-genome sequencing-based approaches for Mycobacterium tuberculosis resistance prediction”的研究论文(DOI:10.1186/s13073-025-01458-0;URL: https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-025-01458-0.)。研究团队基于世界卫生组织发布的结核分枝杆菌全基因组测序数据及其表型药敏试验结果,系统性评估现有分子药敏检测工具的预测性能,并在此基础上提出基于机器学习算法的优化方案。

全基因组测序(WGS)因其检测速度快和范围广已成为耐药结核病分子诊断的重要工具。尽管目前已开发出多种基于WGS的结核分枝杆菌耐药预测工具,但其检测性能的差异尚缺乏系统比较。研究团队通过公共数据库下载世界卫生组织(WHO)公布的通过严格质控的结核分枝杆菌WGS数据及其表型药敏结果。根据已有的流程进行单核苷酸多态性(SNP)鉴定,分别采用基于耐药突变目录的方法(WHO第二版耐药突变目录、TB Profiler和SAM-TB)和基于机器学习模型的方法(GenTB和MD-CNN)进行结核分枝杆菌的耐药性预测。在此基础上,基于上述5种分子药敏检测工具的预测结果,构建堆叠式两阶段集成学习框架,并以决策树为元分类器进行学习(图1)。

本研究共纳入来自全球45个国家共计36,385株结核分枝杆菌的WGS和表型药敏试验数据。对5种分子药敏检测工具在10种抗结核药物中的耐药预测性能进行比较发现,MD-CNN的综合预测性能最优(AUC=92.1%, 95%CI: 89.8%~94.4%)。在单项指标中,WHO第二版耐药突变目录的特异度最高(AUC=97.3%, 95%CI: 95.8%~98.4%),而TB Profiler则在敏感度上表现最佳(AUC=79.5% , 95%CI: 71.8%~86.2%)。在此基础上,基于上述5种工具预测结果构建的集成机器学习模型明显提升了整体预测性能,AUC值可达93.4%(95%CI: 91.4%~95.4%),特异度为95.4%(95%CI: 93.0%~97.6%),敏感度提升至84.1%(95%CI 78.8%~88.8%),优于TB Profiler。进一步分析表明,集成机器学习模型在二线抗结核药物中的耐药预测性能的提升尤为明显(AUC=91.8%, 95%CI: 89.6%~94.0%)。

图1  堆叠式两阶段集成学习框架的构建

尽管WHO最新发布的第二版耐药突变目录在结核分枝杆菌的耐药性预测方面并未优于现有的分子药敏检测工具,但基于机器学习集成算法将该目录与其他分子药敏检测工具进行整合,可明显提高对结核分枝杆菌的耐药性预测能力。