这个文章是我第一次组会报告的内容,主要讲怎么分析果蝇的突变,以及pipeline设计。

果蝇这个生物的特点是每代突变都很多,如果直接套果蝇的参考基因组去找你特定实验诱发(非定向)的突变,可能会找错了。

所以最好的方法是在家系内部找参考基因组,然后做比对,找突变。

这个文章里用的工具比较老,MAQ这个包应该现在都没什么人用了。看此文章主要是要理解方法的过成,用更新的工具套用流程。

找突变前要先用RepeatMasker将重复区域覆盖掉。

对于作为参考基因组的家系内部样本,首先要拼接好,转成一致序列(consensus sequence)。

整个流程如下:

  1. 过滤低质量的reads
  2. mapping
  3. 生成一致序列
  4. 除去repeat
  5. call SNP