疯狂动物城
去看了疯狂动物城,剧情一般,但是小单元和细节实在是有意思。下面内容有剧透。
教父那段逗死了,模仿得惟妙惟肖。动物城里不同动物所开的汽车造型很多。预告里的树懒是个大笑点,可惜预告看了多次,看影片时已经不那么想笑了,最后flash的超速实在是没想到,很逗。最后刚进博物馆时的配乐很有氛围。动物毛茸茸的效果很棒,丛林里的雨滴也有一幕觉得逼真。剧情里的人物似乎都用了类似iPhone,iPad,iPod的设备,不知道苹果是不是有赞助,最后卖碟的封面看到了大白,其余也都应该是迪士尼系列的影片,有点彩蛋的意思。刚进入zootopia时每个乘客的下车方式也很有趣,河马从水中出来。
最近看网络上这么多人推荐,总感觉有水军。一个想法,不一定对_-_
。
看完最大的感想,应该好好学学动物的英文名称,我只知道最普通的几个(Bunny,fox,Buffalo),树懒听了多次都都没记住。
一种采用“快速搜索”+“找寻密度峰值”的聚类方法
Clustering by fast search and find of density peaks
是我看过的公式最少的一篇方法类文章。
全篇就两个公式,介绍了一类新的(2013年的)聚类方法。 我们一般聚类都会用k-means或者层次聚类,但是这些方法都是在空间中找个中心点。 但要在非球型(空间)的数据中找中心,估计就不太好做了(虽然肯定也是能找出来的,重心,几何中心之类)。
本文用的方法是定义一个局部密度\(\rho_i\)和距离\(\delta\)。
\[\rho_i=\sum_{j}\chi(d_{ij}-d_c)\]其中当\(x<0\)时有\(\chi(x)=1\),其他情况下\(\chi(x)=0\)
\(d_c\)是距离的cutoff。
本质上,\(\rho_i\)计算的是与点\(i\)的距离小于\(d_c\)的点的数量。
\(\delta_i\)是计算点\(i\)与其他有更高密度的点之间的最小距离。
\[\delta_i=\min_{j:\rho_j>\rho_i}(d_{ij})\]假设某个点的密度最高,那么\(\delta_i=\max_j(d_{ij})\)
聚类的中心就是有最大\(\delta_i\)的那个点。
该方法的优势是计算比较简单,不需要考虑密度函数,也不需要考虑最优化问题的求解。但是也肯定有不足的地方,这个方法对离群点的处理是认为这些点在一些聚类集合的边缘光晕中。3个实际例子的分析请看文章,不在赘述。
可变剪接相关研究
本文将总结一些看过的可变剪接文章,大致勾画出我关注的可变剪接研究相关历程。
另外,从今天开始我会在标签中添加一些关注的研究者。
1.Alternative splicing: decoding an expansive regulatory layer
这篇综述是Benjamin J. Belencowe实验室出品的。讲了很多比较有意思的工作,另外引用文献对重要论文做了简要描述。
我比较感兴趣的是有工作是预测扰乱剪接的mutation。
In related work [63], a computational method was developed for predicting splicing disrupting mutations by exploiting the principle that the preferred binding location of a splicing factor with respect to splice sites is directly correlated with its positive-acting function, whereas a mutation that creates a binding site for the splicing factor in the ‘wrong’ location is expected to disrupt splicing.
文章里的几个点:
- 蛋白质RNA相互作用的分析(CLIP-seq,HITS-CLIP,PAR-CLIP)
- H3K36me3和H3K9me3对剪接的影响。(组蛋白、核小体、染色质层面对转录可剪接的影响)
- CTCF与剪接
- 今后如何结合ncRNA和antisense transcripts来分析可变剪接
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
stride | 跨步,大步 | fully-committed | 完全依赖 |
genotoxic | 遗传毒性 | perturbation | 不安,摄动 |
nascent | 初期 | inhibit | 抑制 |
polyadenylation | 多腺苷酸化 | synergize | 起增效剂作用,协同加强的活动 |
lofty | 高耸的 | elicit | 引出 |
trigeminal ganglion | 三叉神经节 | infrare | 红外线 |
pivotal | 中枢,关键 | myelodysplasia | 脊髓发育不良 |
prognosis | 预后 | autism spectrum disorder | 自闭症谱系障碍 |
amyotrophic lateral sclerosis | 肌萎缩侧索硬化 | frontotemporal lobar degeneration | 额颞叶变性 |
2.Entropy Measures Quantify Global Splicing Disorders in Cancer
这篇文章估计看过的人都留下了深刻的印象,文章里用Shannon entropy来度量剪接失调(混乱)的程度(参见下图)。
文章中用癌症和正常样本做对比,说明了在癌症中转录本的剪接失调情况会很多。 剪接失调的基因中很多是剪接因子。 并且文章通过以往数据分析了剪接失调同癌症的细胞增殖有着一定的关系。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
perturbation | 忧虑,不安,摄动 | surrogate | 代理 |
foetal | 胎儿 |
3.Expression of 24,426 human alternative splicing events and predicted cis regulation in 48 tissues and cell lines
本文用的是microarray数据来检测cassette exon splicing的情况,主要监测了inclusion和exclusion的已知cassette exon。比较老,2008年的文章,有chaolin zhang参与。
在不同组织中有剪接的exon的表达情况各不相同。 他们围绕调控的外显子抽取8个区域(区域见下图)的序列,在序列中找4mer到7mer的“words”,对看这些words的富集情况,从而获得剪接相关的调控元件。
之后是对高精度RNA可见剪接图谱的研究,对每种检测到的关键motif的特点和潜在功能进行分析,并预测RNA结合蛋白和motif之间的关系。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
in silico | 电脑模拟 | in vivo | 生物活体内 |
in vitro | 生物活体外 | pyrimidine | 嘧啶 |
4.Estimation of alternative splicing variability in human populations
这篇文章评估了可变剪接多样性在两个人群(高加索人,尼日利亚人)里的相同点和差异。
文章中采用CV(coefficient of variation)对基因和转录本的表达量多样性进行了评估,采用splicing ratio \(f_i=\frac{x_i}{\lambda}\)(即某个剪接形式的转录本拷贝数\(x_i\)占这个基因所有转录本拷贝数\(\lambda\)的比例) 结论是基因表达比splicing ratio对于转录本富集的调控贡献较大。
文中将使用同一个TSS的转录本定义位一个基因的转录本,一开始研究了lncRNA然后发现lncRNA看不出什么明显结论, 就只研究mRNA了,在研究时用到了Hellinger distance来球splicing ratio的variability(变化程度)。
分析方法和数据对比(在两个人群中)应该是这篇文章的优点。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
deconvolute | 去卷积 | Caucasian | 高加索人,白人 |
Yoruban | 约鲁巴人 | Nigerian | 尼日利亚人 |
overdispersion | 不平均分布,过离散 | centroid | 质心 |
5.Epigenetic features are significantly associated with alternative splicing
这篇文章是出自Tian Weidong老师的实验室。主要刻画了表观遗传学特征同可变剪接的关系。 我很早之前在JC上讲过,感觉是一篇细节问题较多的文章。
具体来说文章里研究了组蛋白修饰,9个转录因子,CTCF和RNA Pol II同可变剪接外显子的关系。 这个文章中有很多小问题,感觉做得不严谨,主要在于对表观遗传学数据,并不是所有的都减去input做标准化。
首先,文章一开始的背景里说剪接事件可以分为:cassette exon, exon skipping, blablabla的,我就没弄清楚这里专门指出的 cassette exon 同 exon skipping 的区别在哪里。 我还专门翻了翻后面带的那两篇引用文章,写得都是cassette exon。在result部分就没再出现cassette exon,只用了exon skipping,且这里特指skip单个exon的情况(即不会连续2个或以上的exon都被skip)。
还有就是,研究的数据有一部分同前面我做过笔记的文章中的类似,用的都是ENCODE的RNA-seq外加组蛋白修饰、转录因子,CTCF以及RNA Pol II的数据。 计算的时候还一般都从bam或者wig文件开始,有没有考虑过实验之间的差异性以及如何度量或者减少这类问题?这些数据的mapping质量到底怎么样?
文中最逗的就是关于组蛋白修饰和input的问题,在Figure2中没有做control(input)的处理,但是在Figure6中就做了input的矫正。 也就是文中的最后一个小节专门讲述矫正后的结果是什么样子。 另外在附录里有Figure2情况下input的数据分布情况。为什么不全部矫正后画图呢?像这样有时做矫正,有时不做矫正,会对理解造成困扰。 感觉像是在review后添加了矫正的内容。
还要再啰嗦一句,文中使用的那个对转录本分类的脚本,我也没测试成功,可能是我的输入数据里面有处理不了的转录本。
整篇文章中介绍的方法是可取的,只是很多不严谨的地方,让结果不是那么可信。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
dinucleotide | 二核苷酸 | investigate | 考察 |
(这个系列未完待续,每次更新5篇为一个post)
119个人类转录因子结合到基因组区域的序列特征和染色质结构分析
这篇文章有幸聆听过wengzhiping老师的汇报。当时刚刚开始做这方面的研究,什么都不懂。 现在看看,这篇文章内容丰富,在对问题的提出和验证方面比较合理。
他们使用MEME-ChIP软件来做motif discovery。然后对于每个peak,将E-value最小的作为“主要motif”,将其他E-value显著的作为“二级motif”。
再将这些unique motif(79个)分成已知数据库中的,以及未知的(12个)。文中还说,要注意在MEME中找到的最富集在peak上的“主要motif”不一定是canonical motif。 TF 结合位置一般在DNase I peak的两侧,也就是山谷的位置。他们还分析了未知motif是同一些已知motif的关系。有的未知motif在一些已知motif的peaks里。
接下来是weng老师自己认为比较有意思的一个亮点(她曾讲完后专门问我们感觉是不是很有意思),TF之间的结合关系: 两个TFs是紧挨着结合在DNA序列上,还是一个TF与另一个TF结合,后一个TF结合在DNA序列上?
为了检测这两中假设,他们计算peaks中每种motif的比例:1.peaks中有两个motif;2.peaks中reads绝大多数是非cannonical motif;3.peaks中reads绝大多数是canonical motif。
看这三种的比例,根据比例来判断TFs究竟是如何结合的(参见下图)。
另外,文中介绍bound motif site是在peaks区域的,unbound motif site是在peaks外的motif site,文中分析bound site区域的DNase I 超敏感位点和TS motifs都富集很多。
接下来,本文还分析了邻近的motif sites是不是同向的,还是反向(也就是如有两个TF,那么它们是结合在同一侧DNA链上,还是结合在互补链上)的,多个motif sites之间的距离是多远,有没有特点。 我觉得这两个问题很有意思,分析结果发现不同的TF之间距离和方向的特点不同。
接下来他们又分析了组织特异性的TF。最后还分析了TF位置同核小体之间的关系。核小体的两侧是有比较多的TF peaks。 大多数TF都喜欢结合在GC含量高,没有核小体,并且DNase I 易感的区域。在DNA序列上核小体被赶走与DNA序列的固有特征无关。 TF喜欢结合到GC含量高区域,这些区域有很多是启动子区域,但是启动子区域的核小体排布很有规律,那么TF同核小体岂不是喜欢往一块凑? 文章中说TFs会结合到赶走核小体或者组织核小体紧密排布的基因组区域。
总结一下这个研究都做了哪些工作?
- 找序列motifs和TF结合位点
- 对motifs分类,分别分析已知和未知motifs
- 比较bound 和 unbound motif sites的特点(在peaks里和不在peaks里的motif)
- TFs的
共结合
形式有哪些?3种 共结合
TFs之间的距离和结合方向偏好性- 序列特异性的TFs结合在细胞类型特异性的细胞中
- 已蛋白蛋白共结合(拴住)这种方式结合的非序列特异性TFs有哪些特点
- 核小体同TFs的关系
- 总结TFs与序列结合的3个特点
- 细胞类型特异性的TFs结合区域的染色质结构
- 网站Factorbook.org
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
canonical | 权威 | tethering | 拴住 |
repetitive | 重复 | teratocarcinoma | 畸胎瘤 |
deplete | 枯竭 | oscillatory | 震荡性,摆动的 |
striking | 显著的 | in vivo | 体内 |
in vitro | 体外 | intrinsic | 固有的 |
dips | 倾角 | evict | 依法驱逐 |
albeit | 虽然 | deviate | 脱离 |
intrinsically | 本质上 | anecdotal | 轶事 |
在正常和癌症细胞中组蛋白修饰与转录本异构体差异性的联系
这篇文章同我的毕业论文相关。在我的毕业答辩半个月之后,就出现了这篇文章。好好读一下,可以看出文章的优点和不足之处。
文章中分析了Gm12878, Hsmm, Huvec, Hepg2, Helas3, K562, H1hesc, Nhek, Nhlf这几个cell type中组蛋白甲基化,乙酰化以及组蛋白变异(H2az)。
为什么选这些ENCODE的cell type? 根据我的课题经验就这几个cell type里的组蛋白修饰数据全面,实验基本一致。可以做横向比较。
他们用TopHat2和Cuffilnks2 获得了有注释的mRNA和lincRNA的相关信息。 将外显子分成:转录起始位点,转录终止位点,内部以及有重合区域的,这四个部分。并只研究转录起始位点和内部这两个区域的外显子。 为什么只选这两类呢?这同后续文中定义的splicing exon inclusion rate(SEIR,ranging from 0 to 1)和transcription start site inclusion rate(TSSIR,范围0到1)有关。
这两个比例就是看外显子是否在每个异构体都有出现,假设一个基因有3个异构体,某个起始位点的外显子只在两个异构体中出现,那么TSSIR=2/3,SEIR数值没有。 SEIR也类似,一个转录本非起始终止位点(即内部)的外显子,在3个转录本中的1个转录本出现,那么这个外显子SEIR为1/3。 这篇文章的Fiugre1的注释中可能一个SEIR=0.33有误,在图中是0.67。lengend中对于SEIR计算的是exon inclusion还是spliced out有误解。
接下来就是对TSSIR和SEIR同组蛋白修饰的富集情况的相关性。他们发现编码蛋白质的基因正相关于H3K36me3富集情况,负相关于H3K4me2和H3K4me3富集情况。转录本多样性与表观的相互作用肯定囊括了其他的因素在里面。
之后他们还研究了组蛋白修饰在外显子的上游和下游1kb,2kb和5kb的富集情况,发现某些组蛋白修饰同外显子有相关性。但是从图和表中看到Z值都比较小,也就是整体水平较为平均。
接下来对癌症细胞系中的组蛋白修饰同外显子剪接的特点进行了总结。 对外显子inclusion patern分类,研究每一类中组蛋白修饰的特点。
最后用组蛋白修饰来预测TSSIR和SEIR,他们只预测了有较明显patern的800多个基因。
为什么这样做,只用840个基因做预测?我觉得不这样做就预测不出来,噪声太大。
预测方法是这样的:要知道预测的细胞系中外显子对应区域的组蛋白富集情况,以及已知的细胞系中外显子的组蛋白情况和TSSIR/SEIR分数。 首先做一个组蛋白修饰富集情况的矩阵,例如每列都是cell type,每行都是不同的组蛋白修饰。 接下来算细胞系之间的欧时距离,找欧时距离最近的3个邻居。 这三个邻居对应的TSSIR/SEIR分数,就基本上是要预测的细胞系中外显子的对应分数。 然后在两个未知的细胞系中预测正确率分别达到91.82%和84.65%。 后来又做了leave one out的cross validation。每个细胞系的正确率从72.1%到91.8%。
另外,文中还没有解释清楚一开始他们怎么算的组蛋白富集情况,我发邮件询问了作者。 作者回答用的是Fisher’s exact test(如下图所示),每列代表不同的样本,组蛋白的数据有input,用input做control。 每一行是Reads数量,分别统计mapped的reads数和总共的reads数。这样算出富集情况的p值。
sample | control | |
---|---|---|
mapped | 1 | 3 |
total | 2 | 4 |
现在总结一下此类可变剪接文章的特点(并不是针对这篇文章)
首先定义一个“可变剪接”的分值,然后对表观遗传学修饰进行富集性分析(也定义一个数值),之后看这两个数值之间的联系。
对于机器学习的预测,就用一些挑出的较容易看出模式的样本来进行,这样预测准确率就不会太差。
机器学习在很多社交大数据分析中不需要给出数据之间的内在联系,只求预测准确性,但是这个东西在自然科学里,就必须要有一个合理的解释来阐述内部原理。
很多方法预测的好就意味着数据之间有相关性,但是我们也要深入到数据内部,看看在产生数据的时候是不是就隐含了一些已知的相关性在其中。
说白了,别把工作做成“人为设定了本来就有有相关性的变量,然后证明这些变量之间有线性相关性”。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
irrespective | 不论,不管 | occlude | 堵塞 |
genuine | 真正的,纯种的 |