这是某个NGS数据的插入片段长度分布图(上图用的是 bowtie2 做的序列比对,下图是用的 bwa),在 bowtie2 的结果中,约150bp处有一个明显异常的突刺,看得人如鲠在喉。虽然它也许并不会严重影响后续分析,也经常就被大家睁一只眼闭一只眼地忽略了,但所谓“事出反常必有妖”,咱做生信分析的,偶尔遇到这样的“无伤大雅”的小妖,不妨瞪大眼睛仔细看看,或许会有意想不到的收获呢。 首先,我们来尝试从公共数据中重现该问题。 直接上代码(需要用到的软件、参考基因组及其索引等,可自行上网搜索解决,这里不花篇幅赘述): 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 # 下载 .sra 文件 prefetch SRR28809588 # 转换 .sra 到 .fastq.gz fastq-dump …