Methods in Ecology and Evolution | 从短读到长读:读长对宏基因组组装与分箱的影响
宏基因组测序不仅能够揭示微生物群落的遗传多样性和功能潜力,也为解析大量未培养微生物提供了重要途径。本研究比较了不同测序策略在宏基因组组装与分箱中的表现,重点评估读长对结果的影响。结果表明,更长的Illumina读长有助于提升contig组装效果和基因片段重建能力;进一步结合冷泉和温泉样本分析发现,Nanopore长读长测序在重构中高质量宏基因组基因组方面具有明显优势,可使中等质量物种水平代表基因组数量提升1.32倍。研究表明,在宏基因组分析中引入更长读长和Nanopore测序,将有助于更全面地认识环境微生物组。
论文信息
英文标题:From short to long: the impact of read length on metagenome assembly and binning
中文标题:从短读到长读:读长对宏基因组组装与分箱的影响
期刊:Methods in Ecology and Evolution
发表时间:2026年4月
第一作者:彭玺
通讯作者:邓晔
作者单位:中国科学院生态环境研究中心、中国科学院大学
合作单位:南京农业大学
摘要
宏基因组测序不仅能够揭示微生物群落的遗传多样性和功能潜力,也为解析大量未培养微生物提供了重要途径。本研究比较了不同测序策略在宏基因组组装与分箱中的表现,重点评估读长对结果的影响。结果表明,更长的Illumina读长有助于提升contig组装效果和基因片段重建能力;进一步结合冷泉和温泉样本分析发现,Nanopore长读长测序在重构中高质量宏基因组基因组方面具有明显优势,可使中等质量物种水平代表基因组数量提升1.32倍。研究表明,在宏基因组分析中引入更长读长和Nanopore测序,将有助于更全面地认识环境微生物组。
研究背景
微生物群落广泛存在于土壤、水体以及人体肠道等各种环境中,在生态系统运行、元素循环和宿主健康中发挥着基础作用。近年来,宏基因组测序的发展,使研究者能够直接从环境样本中解析微生物群落的组成和功能,极大推动了环境微生物研究。
目前,Illumina短读长测序仍是宏基因组研究中最常用的技术路线。虽然以150 bp为代表的短读长方案应用广泛,但更长的读长,如250 bp,能够提供更多序列上下文信息,从而提升重复区域解析能力和基因组重建精度。与此同时,Nanopore等长读长测序技术的兴起,进一步拓展了宏基因组研究的边界。其超长读长能够跨越复杂基因组区域,更有利于恢复完整的操纵子、基因簇和宏基因组组装基因组。
不过,不同测序策略的效果并非一概而论,而是会受到群落复杂度、物种丰度分布等因素影响。尤其在土壤、冷泉、温泉等复杂环境中,传统短读长组装往往更容易出现片段化。此外,过去常用的N50等评价指标,也未必能够真实反映宏基因组组装质量。
基于此,本研究以冷泉和温泉这两类典型极端环境为对象,系统比较了不同宏基因组测序策略的表现,重点评估读长对组装质量和基因组重构能力的影响。研究旨在揭示更长短读长和Nanopore测序在环境微生物信息挖掘中的优势,为环境监测、生物技术应用和健康相关研究提供方法学参考。
材料与方法
1. 样品来源与测序设计
· 本研究选取海马冷泉和腾冲温泉两类典型极端环境样品。
· 采用Illumina NovaSeq 6000平台进行短读长测序,读长为PE250。
· 为评估插入片段长度的影响,部分冷泉样品额外设置了约500 bp的插入片段。
· 为比较读长对组装效果的影响,还基于原始PE250数据进行了两种重采样处理:一是从每条序列3’端截去100 bp,二是随机抽取60%的序列,以在相近数据量条件下比较不同读长表现。
· 同时,冷泉和温泉样品还进行了Oxford Nanopore长读长测序。
2. 宏基因组组装与质量评估
· Illumina数据经质控后,使用metaSPAdes进行组装,并设置两组不同的k-mer参数,比较不同组装策略的效果。
· Nanopore数据先经过NextPolish纠错,再使用Flye进行长读长组装。
· 此外,还结合短读长和长读长数据,采用OPERA-MS进行混合组装。
· 组装质量主要从contig数量、contig总长度、N50和reads回贴率等方面进行评估。
· 同时,进一步统计16S rRNA基因的总数和全长恢复情况,以评价组装对关键功能片段的保留能力。
3. 基因预测与非冗余基因集构建
· 在组装结果基础上,使用Prodigal预测编码基因。
· 再通过cd-hit对基因序列进行聚类,构建非冗余基因集。
· 这一过程用于比较不同测序策略在基因恢复能力上的差异。
4. 宏基因组分箱与基因组质量评估
· 对12个混合样品的组装结果统一采用VAMB进行分箱。
· 之所以选择VAMB,是因为它能够同时整合四核苷酸频率和多样品丰度共变信息,更适合处理冷泉和温泉这类高复杂度微生物群落。
· 随后利用CheckM评估分箱基因组的完整度和污染度,比较不同测序策略在中高质量MAG恢复上的表现。
5. 物种水平代表基因组构建
· 最后,利用dRep按平均核苷酸一致性对所有重构基因组进行聚类。
· 其中先按90% ANI进行初步聚类,再按95% ANI进行细化聚类,从而获得物种水平代表基因组。
· 这一结果用于比较不同测序策略在物种水平基因组恢复能力上的差异。
结果与讨论
1. 更长的短读长,确实能拼出更多信息
研究首先基于19个冷泉样品,对150 bp和250 bp两种Illumina短读长进行了系统比较,同时还比较了两组不同的metaSPAdes k-mer参数设置。结果表明,250 bp读长组装得到的contig总长度更大、contig数量更多、reads回贴率也更高(图1),说明更长的短读长能够提供更多序列上下文信息,从而提升宏基因组组装的完整性。
不过,一个有意思的现象是:250 bp虽然整体组装更充分,但N50反而低于150 bp。这并不意味着组装变差了。相反,这恰恰说明N50在宏基因组研究中存在局限。因为更长的读长有助于恢复低丰度物种的序列,而这些稀有物种往往会产生大量较短的contig,进而把N50“拉低”。换句话说,N50下降不一定代表组装质量下降,反而可能意味着组装覆盖了更多真实的生物多样性。
这部分结果给出一个很重要的启发:宏基因组组装质量不能只看N50,必须结合多个指标综合判断。
图1 Contig的质控指标在两种短读长以及两种组装k-mer设置下的表现。
2. 更长的短读长,能让更多关键基因被完整拼出
除了看contig层面的组装结果,研究还比较了不同策略对基因片段恢复能力的影响,重点考察了16S rRNA基因和蛋白编码序列(图2)。结果显示,在16S rRNA基因重建方面,更大的k-mer参数组合通常表现更好,无论是150 bp还是250 bp数据,都有助于恢复更完整的16S片段。
在蛋白编码基因方面,250 bp组装得到的非冗余基因集包含更多编码序列;同时,在250 bp条件下,较大的k-mer参数还能够进一步提高基因片段的平均长度。也就是说,更长的短读长不仅能拼出更多contig,也能恢复更多、更完整的功能基因信息。
这说明在仅使用Illumina平台时,适当增加读长、优化组装参数,确实能显著提升宏基因组数据的信息挖掘深度。
图2 对四个组装结果的基因片段重建能力进行评估(*p<0.05,**p<0.01,***p<0.001,ns:无统计学意义,N=19)。(a)从四个组装结果预测的16S核糖体RNA基因数量。绿色方框代表长度超过全长一半的16S rRNA基因,红色方框代表全长16S rRNA基因。(b)从四个组装结果预测的蛋白质编码序列数量。Dunn检验的显著性用星号表示。(c)编码序列的平均长度。Dunn检验的显著性用星号表示。
3. 长读长测序能带来更强的组装提升
在进一步比较Illumina短读长组装、Nanopore长读长组装和短长读长混合组装后,长读长的优势变得更加明显。研究在冷泉和温泉样品中共获得了约281.75 Gb的Illumina数据和74.77 Gb的Nanopore数据,并基于三种策略分别进行组装。结果显示,长读长组装在超长contig重建上优势最突出:其最长contig达到4.62 Mb,而短读长组装和混合组装分别只有0.791 Mb和2.974 Mb。与此同时,长读长组装的N50也显著高于另外两种策略。
这意味着,Nanopore长读长真正解决的是“连续性”问题。对于复杂基因组区域、重复序列、结构变异等短读长难以跨越的部分,长读长更容易一次性跨过去,因此更适合拼接出连续性更高的序列。
4. 混合组装的提升有限
我们时常假设:把短读长和长读长结合起来做混合组装,效果应该更好。然而,在本研究中,混合组装虽然在部分指标上略优于短读长组装,但优势并不总是显著(图3)。 在16S rRNA基因重建方面,混合组装的确表现最好,但相比短读长组装,并没有达到显著差异;在蛋白编码序列数量上,混合组装也没有表现出特别明显的提升。
这说明,现有混合组装流程对长读长优势的利用可能还不够充分。换句话说,“短+长”并不自动等于“最好”,关键还取决于算法如何整合两类数据。
图3 Contig的质控指标在三种组装策略(短读组装、长读组装与混合组装)下的表现。
5. 在宏基因组组装基因组(MAG)重建层面,长读长的价值更加明显
研究对三种组装结果统一使用VAMB进行分箱,并用CheckM评估质量。最终共恢复出1893个MAG,其中792个为中等质量,277个为高质量。
值得注意的是,虽然长读长数据量不到短读长的三分之一,但依然恢复出了大量中高质量MAG。更关键的是,长读长组装获得的中等质量MAG,其N50最高,连续性明显优于短读长和混合组装。 在23个由少于10条contig构成的中等质量MAG中,有22个来自长读长组装;甚至有1个长读长组装得到的MAG只包含单一contig,且完整度达到100%,污染度仅为0.34%。
这类结果非常有说服力。它说明长读长不仅能把序列拼得更长,而且能够真正提升基因组层面的恢复质量,尤其是在获得高连续性、接近完整的微生物基因组方面表现突出。
6. 长读长带来的新物种信息
研究还进一步对中等质量以上的MAG进行了去冗余聚类,以评估不同测序策略恢复物种水平代表基因组的能力。结果显示,仅使用短读长组装时,共恢复305个物种水平代表基因组;而在引入长读长数据后,额外增加了98个物种水平代表基因组,提升幅度达到32.13%(图4)。
这一结果很关键。它说明即便长读长测序数据量更少,仍然能够显著提升基因组恢复的“物种分辨率”。也就是说,长读长并不只是让已有结果更完整,它还能帮助研究者看到原本看不到的微生物成员。
高测序深度的短读长测序依然有其不可替代的价值,尤其对于捕获低丰度稀有物种非常重要。因此,长读长更像是在提高“基因组蓝图质量”,而高深度短读长则更有助于拓展“稀有物种覆盖面”。
图4 (a)从三个组装结果中筛选出的中等质量 MAG 的 N50 值。(b)从三个组装结果的中等质量 MAG 中识别出的物种水平代表性基因组(SRG)的数量。
参考文献
Peng, X., Yang, X., Wang, D., Zhao, B., Feng, K., He, Q., Wang, S., & Deng, Y. (2026). From short to long: The impact of read length on metagenome assembly and binning. Methods in Ecology and Evolution, 00, 1–11.