微生物组解决方案之宏基因组数据分析工作流1.meta-seq介绍
宏基因组学(Metagenomics)将环境样品中的微生物群落作为整体进行研究,包含环境样本中细菌、古菌、病*、真菌、原生生物以及其它低等和高等真核生物,以来自于微生物群落成员的遗传原件(基因组、基因)为研究目标。
宏基因组调查通过对环境样品中的全基因组DNA进行高通量测序,进行微生物群落结构多样性,微生物群体基因组成及功能,特定环境相关的代谢通路等进行分析,从而进一步发掘和研究具有应用价值的基因及环境中微生物群落内部、微生物与环境间的相互关系。构建的环境微生物基因集,可为环境中微生物的研究、开发和利用提供基因资源库。
meta-seq数据分析软件适用于基于Illumina测序平台(以及其它输出文件可以转换成FASTQ的测序平台)的宏基因组测序数据,通过meta-seq可以完成对宏基因组数据进行质量控制,物种分类,基因组组装,功能预测,不同水平(基因,功能分类水平)丰度计算,差异分析,以及分箱操作。
业务流程图:
2.主要功能
meta-seq数据分析软件实现按照工作流进行模块化组织,每一个模块可以按照工作流顺序进行顺序执行,每个模块都可以单独执行,meta-seq主要包括以下七大功能模块:
模块组I:QC
- 原始测序数据质量评估;- 原始数据质量控制,去除接头和低质量序列;- 去除宿主序列。
模块组II:Taxonomy
- 物种组成谱分析(可选:kraken2、bracken、centrifuge、kaiju分类引擎);- 物种丰度评估;- 微生物多样性分析,如alpha、beta多样性及物种分类可视化。
模块组III:Assembly
- 宏基因组组装。(可选:metaspades、megahit)
模块组IV:Annotation
- ORF预测;- ORF丰度定量;- 多种数据库基因鉴定及注释。(KEGG、COG、耐药基因)
模块组V:FunctionalProfiling
- 数据库功能基因丰度分析。
模块组VI:StatisticsAnalysis
- 物种组成差异分析分析。
模块组VII:Binning
- 宏基因组分箱及宏基因组组装基因组质量评估及同源性鉴定。
3.meta-seq版本升级
当前版本:0.0.3升级内容:
日志文件和模块目录结构一致,每个可执行模块单独记录日志,pipeline提交日志不再统一写入pipeline.log文件。
命令行接口对类似功能进一步封装,比如 qc可以组合 evaluation,trimming,bmtagger三个模块。
GTDB Kraken2数据库匹配71k库,可提升序列的分类比例。
优化了DEseq2的火山图输出。
任务提交后生成的run.sh文件,和meta-seq项目路径保持一致。
新版本metaspades对内存要求降低,metaspades设置为默认的组装软件。
命令行接口如下图:
4.meta-seq依赖的工具和数据库
工具应用清单:
工具名称版本号地址FastQC0.11.5