Introduction
随着基因组挖掘技术的进步,生物合成基因簇(BGCs)的研究已成为天然产物发现的核心环节。目前,超过20万个公开的微生物基因组中蕴藏着丰富的化学多样性信息。然而,现有的工具在处理大规模BGCs时,常因基于网络的聚类方法效率低下而面临瓶颈。
BiG-SLiCE(Biosynthetic Gene clusters - Super Linear Clustering Engine) 应运而生,这是一款专为高效聚类大规模BGCs而设计的工具。它通过将BGCs映射到欧几里得空间,以近乎线性的方式将BGCs分组为基因簇家族(GCFs)。在短短10天内,BiG-SLiCE成功分析了来自209,206个微生物基因组和宏基因组组装基因组(MAGs)的1,225,071个BGCs,并构建了全球次级代谢多样性的分布图谱,揭示了未被开发的生物合成潜力。此外,B …