这篇文章同我的毕业论文相关。在我的毕业答辩半个月之后,就出现了这篇文章。好好读一下,可以看出文章的优点和不足之处。

文章中分析了Gm12878, Hsmm, Huvec, Hepg2, Helas3, K562, H1hesc, Nhek, Nhlf这几个cell type中组蛋白甲基化,乙酰化以及组蛋白变异(H2az)。 为什么选这些ENCODE的cell type? 根据我的课题经验就这几个cell type里的组蛋白修饰数据全面,实验基本一致。可以做横向比较。

他们用TopHat2和Cuffilnks2 获得了有注释的mRNA和lincRNA的相关信息。 将外显子分成:转录起始位点,转录终止位点,内部以及有重合区域的,这四个部分。并只研究转录起始位点和内部这两个区域的外显子。 为什么只选这两类呢?这同后续文中定义的splicing exon inclusion rate(SEIR,ranging from 0 to 1)和transcription start site inclusion rate(TSSIR,范围0到1)有关。

这两个比例就是看外显子是否在每个异构体都有出现,假设一个基因有3个异构体,某个起始位点的外显子只在两个异构体种出现,那么TSSIR=2/3,SEIR数值没有。 SEIR也类似,一个转录本非起始终止位点(即内部)的外显子,在3个转录本中的1个转录本出现,那么这个外显子SEIR为1/3。 这篇文章的Fiugre1的注释中可能一个SEIR=0.33有误,在图中是0.67。lengend中对于SEIR计算的是exon inclusion还是spliced out有误解。

接下来就是对TSSIR和SEIR同组蛋白修饰的富集情况的相关性。他们发现编码蛋白质的基因正相关于H3K36me3富集情况,负相关于H3K4me2和H3K4me3富集情况。转录本多样性与表观的相互作用肯定囊括了其他的因素在里面。

之后他们还研究了组蛋白修饰在外显子的上游和下游1kb,2kb和5kb的富集情况,发现某些组蛋白修饰同外显子有相关性。但是从图和表中看到Z值都比较小,也就是整体水平较为平均。

接下来对癌症细胞系中的组蛋白修饰同外显子剪接的特点进行了总结。 对外显子inclusion patern分类,研究每一类中组蛋白修饰的特点。

最后用组蛋白修饰来预测TSSIR和SEIR,他们只预测了有较明显patern的800多个基因。 为什么这样做,只用840个基因做预测?我觉得不这样做就预测不出来,噪声太大。

预测方法是这样的:要知道预测的细胞系中外显子对应区域的组蛋白富集情况,以及已知的细胞系中外显子的组蛋白情况和TSSIR/SEIR分数。 首先做一个组蛋白修饰富集情况的矩阵,例如每列都是cell type,每行都是不同的组蛋白修饰。 接下来算细胞系之间的欧时距离,找欧时距离最近的3个邻居。 这三个邻居对应的TSSIR/SEIR分数,就基本上是要预测的细胞系中外显子的对应分数。 然后在两个未知的细胞系中预测正确率分别达到91.82%和84.65%。 后来又做了leave one out的cross validation。每个细胞系的正确率从72.1%到91.8%。

另外,文中还没有解释清楚一开始他们怎么算的组蛋白富集情况,我发邮件询问了作者。 作者回答用的是Fisher’s exact test(如下图所示),每列代表不同的样本,组蛋白的数据有input,用input做control。 每一行是Reads数量,分别统计mapped的reads数和总共的reads数。这样算出富集情况的p值。

  sample control
mapped 1 3
total 2 4

现在总结一下此类可变剪接文章的特点(并不是针对这篇文章)

首先定义一个“可变剪接”的分值,然后对表观遗传学修饰进行富集性分析(也定义一个数值),之后看这两个数值之间的联系。 对于机器学习的预测,就用一些挑出的较容易看出模式的样本来进行,这样预测准确率就不会太差。 机器学习在很多社交大数据分析中不需要给出数据之间的内在联系,只求预测准确性,但是这个东西在自然科学里,就必须要有一个合理的解释来阐述内部原理。 很多方法预测的好就意味着数据之间有相关性,但是我们也要深入到数据内部,看看在产生数据的时候是不是就隐含了一些已知的相关性在其中。 说白了,别把工作做成“人为设定了本来就有有相关性的变量,然后证明这些变量之间有线性相关性”。

单词本

英文 中文 英文 中文
irrespective 不论,不管 occlude 堵塞
genuine 真正的,纯种的