可变剪接相关研究II

目录: 论文笔记 | 标签: 可变剪接, SVM, Alu, Yi Xing, motif, TFBS, 转录调控元件, 聚类 | 发表时间: Mar 20, 2016

1.Accurate identification of alternatively spliced exons using support vector machine

这篇文章发表了10多年了，是介绍SVM如何用于区分可变剪接外显子的。如果想了解机器学习方法应用的，建议从这篇开始学习。

不过由于生物问题的复杂性，文章中用了243个可变剪接的外显子，1753个非可变剪接的外显子。这个非平衡样本问题，即正样本（可变剪接）和负样本（非可变剪接）的差异很大。解决这类问题的方法很多，例如：1.重抽样凑成平衡样本；2.加一些附加数据集；3.采用惩罚模型。

但是从这篇文章中我好像没有具体看到相应的对策。

文章中采用的是binary classification。一共228个特征，包括序列碱基信息，三联密码子信息，外显子长度等特征。

文中也做了False Positive Rate和Ture positive rate(ROC曲线)分析。并且比较了Naive-Bayes和neural net work方法。

特征选择的时候，使用Golub等人的方法，这种方法感觉就是找特征在正负样本中差异大的。

最后结果在10 fold cross validation后AUC可以达到0.93。

单词本

英文	中文	英文	中文
brute-force enumeration	暴力枚举	merit	价值
slack	松弛	convey	传递，表达
heuristic	启发式	pyrimidine	嘧啶
stretche	延伸	concatenation	一系列互相关联的事物

2.Widespread establishment and regulatory impact of Alu exons in human genes

Yi Xing（邢毅）老师组里的工作，他们组专门研究转录调控，从文章里可以学到不少东西。本文是介绍alu exon在基因中的调控作用，实验和分析相结合。有高剪接活动的Alu exons富集在5’-UTR区域。文章里的东西可以说是对Alu exon同转录关系的一个较为全面的总结。

3.Automated classification of alternative splicing and transcriptional initiation and construction of visual database of classified patterns

这篇文章是讲述如何对可变剪接类型进行分类，并且还做了个可视化的数据库（网站）。

我关注这篇的内容就在它如何对可见剪接分类，方法挺有意思的，就是对外显子和内含子（基因间区）用二进制进行标注，然后找相似的pattern进行合并。合并后，又进行了二进制到十进制的转换。已知的一些可变剪接pattern可以换算成这样的十进制数字，然后从基因组上的所有可变5’端和可变剪接换算成的结果中进行查找，找到一样的，就说明这个可变剪接模式是已知的哪种。

文章的精华全在Figure1和Figure2。

单词本

英文	中文	英文	中文
atypical	非典型	miscellaneous	杂项
herein	此处	decimal	十进制

3.ARH: predicting splice variants from genome-wide data with modified entropy

这是一篇算法文章，预测剪接变异，用的是Affymetrix exon array的数据。

文章中主要用一组公式计算了对转录本剪接的评价：1.在基因层面是区分有可变剪接的基因；2.在外显子层面计算了剪接的离差（偏差）。在公式（2）中用了以2为底的指数\(p_{g,e}=\frac{2^{\mathopen|\zeta_{g,e}\mathclose|}}{\sum\nolimits_{e=1,...,m} 2^{\mathopen|\zeta_{g,e}\mathclose|}}\)来计算exon splicing probability，没想明白为什么要以2为底(成比例放大便于计算？)。最后他们加上熵以及权重项搞了个ARH数值（权重*熵，凑一凑），如果这个数值>0.03暗示着剪接现象。

算法实现可以学习一下，一般自己弄个有指示意义的数值也差不多的玩法。

单词本

英文	中文	英文	中文
deviation	离差，偏差	constitute	构成
per se	本质上

4.Discovery and Analysis of Evolutionarily Conserved Intronic Splicing Regulatory Elements

这篇文中着重从基因组层面的信息来寻找同剪接调控相关的元件(内含子剪接调控元件)。文章中把剪接元件序列能研究的内容做的挺全面的，虽然我认为得到的结论也不是很强。

简要记录一下找寻intronic splicing regulatory elements（ISREs）的步骤：

首先从基因组中抽出保守的外显子和外显子两侧的区域。去掉第一个外显子，外显子上下游的内含子区域分别为400bp，区域截取这么长是为了避免只找到microRNA和snoRNA序列。
统计5mer-7mer的短序列。用chisq来计算相同长度的短序列之间的相关性。并排除再启动子上enrich的TFBS序列。这里就有一个问题，TFBS不光在启动子上，所以只排除启动子上的是不严谨的。
聚类，聚类方法好复杂，是他们自己设计的。具体如下：
- 将长序列同短序列进行比较，如果长序列包含短序列或者chisq相关性高，那么这样的长序列是短序列的“家长”
- 将短序列同长序列进行比较，如果短序列是长序列的子集或者chisq相关性低，并且这个短序列不是一个“家长”，那么短序列是长序列的“孩子”
- 合并这样的小“家庭”，条件是：“家长”序列有5个碱基相同，在合并的“家庭”中，家长是有最高chisq分值的序列。如果“孩子”有不止一位“家长”，那么chisq分值最高的是它直接关联“家长”。

这个聚类方式的好处是：1.保证聚类的集合（“家庭”）里的序列高度保守；2.粗劣都是根据实际序列的相似性来聚集的，这些实际序列都是生物学序列可以被实验验证。（这一点是要说明positional weight matirces PWMs不好，因为PWMs统计的序列可能在实际基因组中根本不存在）

文章中也有一句话没看明白。

An important caveat in our analysis is that on occasion we had more than one cluster with motifs that might have been grouped as one cluster by other clustering methods.

这句话是说有些时候多余一个的motif簇会被用其他聚类方式聚成一类，但是为什么这样？

单词本

英文	中文	英文	中文
caveat	警告	resemble	像
canonical	规范	cognate	同源

5.MATLIGN: a motif clustering, comparison and matching tool

这是做motif聚类的一篇文章，由于上一篇是关于短序列的，所以这篇就少为跑个题，写一个看过的motif聚类相关的文章。

文章是作者写了个工具做motif聚类，这个工具的优势是对于position frequency matrices(PFM)和degenerate consensus sequences(简并一致序列)都可以做分析。所用的方法无外乎是那些距离：Kendalls tau rank corre- lation coefficient (I), Spearman’s rank correlation coeffi- cient (II), Pearson correlation coefficient (III), normalised Euclidean distance (IV) and evolutionary substitution score (V), 或者这些方法的结合。有了距离后就用自下而上的聚类方法（Agglomerative hierarchical clustering）来聚类，之后根据silhouette value来优化子集合的数量。

文章中还介绍了计算蛋白质序列的距离用spearman和pearson 相关性方法比较好。

单词本

英文	中文	英文	中文
stochastically	随机	repetition	重复
heterodimer	异源二聚体	agglomerative	凝聚

开始学习docker

目录: 软件世界 | 标签: Docker, 虚拟机 | 发表时间: Mar 14, 2016

关注Docker有一段时间了，几个月前想在服务器上安装，但是32位的Ubuntu服务器装起来很麻烦，源还不好用，计划遂搁浅。今日在台式机上安装了，可以愉快玩耍。安装方式参考官方文档(Fedora)。建议直接dnf install docker-engine来安装。在开始安装试用后，我对docker是什么还一无所知。在测试了“hello-world”，“docker/whalesay”和“ubuntu”三个镜像后，发现了好玩的地方，我可以在Fedora上玩Ubuntu了。

我的第一直觉认为docker像一个虚拟机，例如可以在Fedora上虚拟一个Ubuntu出来，之前经常需要转换多个linux和windows系统来做的package功能测试，现在在linux下就不用转换系统了。当然docker应该与vm不同，所以我简单搜索了一下大家对此的解释。简而言之Docker是操作系统级别的轻量级虚拟化技术，没有做到虚拟机的全虚拟化（硬件仿真虚拟化）。所以应用起来比虚拟机要快速，创建一个镜像秒开。

为什么会关注这个？因为生物信息软件多种多样(C写的，Java写的，python/perl写的等等)，在不同环境下安装起来太麻烦了，我们需要一个简单的部署和分发平台，目前有BioDocker这个解决方案，也有人在开发类似CRAN/bioconductor/github的软件分发平台。

究竟以后会变成什么样子呢？拭目以待。

附注：docker run image命令

service dockter start
docker images
docker run -t -i ubuntu /bin/bash

疯狂动物城

目录: 影视评论 | 标签: zootopia, 动画电影 | 发表时间: Mar 11, 2016

去看了疯狂动物城，剧情一般，但是小单元和细节实在是有意思。下面内容有剧透。

教父那段逗死了，模仿得惟妙惟肖。动物城里不同动物所开的汽车造型很多。预告里的树懒是个大笑点，可惜预告看了多次，看影片时已经不那么想笑了，最后flash的超速实在是没想到，很逗。最后刚进博物馆时的配乐很有氛围。动物毛茸茸的效果很棒，丛林里的雨滴也有一幕觉得逼真。剧情里的人物似乎都用了类似iPhone，iPad，iPod的设备，不知道苹果是不是有赞助，最后卖碟的封面看到了大白，其余也都应该是迪士尼系列的影片，有点彩蛋的意思。刚进入zootopia时每个乘客的下车方式也很有趣，河马从水中出来。

最近看网络上这么多人推荐，总感觉有水军。一个想法，不一定对_-_。

看完最大的感想，应该好好学学动物的英文名称，我只知道最普通的几个(Bunny，fox，Buffalo)，树懒听了多次都都没记住。

一种采用“快速搜索”+“找寻密度峰值”的聚类方法

目录: 论文笔记 | 标签: 聚类 | 发表时间: Mar 9, 2016

Clustering by fast search and find of density peaks是我看过的公式最少的一篇方法类文章。

全篇就两个公式，介绍了一类新的（2013年的）聚类方法。我们一般聚类都会用k-means或者层次聚类，但是这些方法都是在空间中找个中心点。但要在非球型（空间）的数据中找中心，估计就不太好做了（虽然肯定也是能找出来的，重心，几何中心之类）。

本文用的方法是定义一个局部密度\(\rho_i\)和距离\(\delta\)。

\[\rho_i=\sum_{j}\chi(d_{ij}-d_c)\]

其中当\(x<0\)时有\(\chi(x)=1\)，其他情况下\(\chi(x)=0\)

\(d_c\)是距离的cutoff。

本质上，\(\rho_i\)计算的是与点\(i\)的距离小于\(d_c\)的点的数量。

\(\delta_i\)是计算点\(i\)与其他有更高密度的点之间的最小距离。

\[\delta_i=\min_{j:\rho_j>\rho_i}(d_{ij})\]

假设某个点的密度最高，那么\(\delta_i=\max_j(d_{ij})\)

聚类的中心就是有最大\(\delta_i\)的那个点。

该方法的优势是计算比较简单，不需要考虑密度函数，也不需要考虑最优化问题的求解。但是也肯定有不足的地方，这个方法对离群点的处理是认为这些点在一些聚类集合的边缘光晕中。3个实际例子的分析请看文章，不在赘述。

可变剪接相关研究

目录: 论文笔记 | 标签: 可变剪接, Benjamin J. Belencowe, Yoseph Barash, entropy | 发表时间: Mar 8, 2016

本文将总结一些看过的可变剪接文章，大致勾画出我关注的可变剪接研究相关历程。

另外，从今天开始我会在标签中添加一些关注的研究者。

1.Alternative splicing: decoding an expansive regulatory layer

这篇综述是Benjamin J. Belencowe实验室出品的。讲了很多比较有意思的工作，另外引用文献对重要论文做了简要描述。

我比较感兴趣的是有工作是预测扰乱剪接的mutation。

In related work [63], a computational method was developed for predicting splicing disrupting mutations by exploiting the principle that the preferred binding location of a splicing factor with respect to splice sites is directly correlated with its positive-acting function, whereas a mutation that creates a binding site for the splicing factor in the ‘wrong’ location is expected to disrupt splicing.

文章里的几个点：

蛋白质RNA相互作用的分析（CLIP-seq，HITS-CLIP，PAR-CLIP）
H3K36me3和H3K9me3对剪接的影响。（组蛋白、核小体、染色质层面对转录可剪接的影响）
CTCF与剪接
今后如何结合ncRNA和antisense transcripts来分析可变剪接

单词本

英文	中文	英文	中文
stride	跨步，大步	fully-committed	完全依赖
genotoxic	遗传毒性	perturbation	不安，摄动
nascent	初期	inhibit	抑制
polyadenylation	多腺苷酸化	synergize	起增效剂作用，协同加强的活动
lofty	高耸的	elicit	引出
trigeminal ganglion	三叉神经节	infrare	红外线
pivotal	中枢，关键	myelodysplasia	脊髓发育不良
prognosis	预后	autism spectrum disorder	自闭症谱系障碍
amyotrophic lateral sclerosis	肌萎缩侧索硬化	frontotemporal lobar degeneration	额颞叶变性

2.Entropy Measures Quantify Global Splicing Disorders in Cancer

这篇文章估计看过的人都留下了深刻的印象，文章里用Shannon entropy来度量剪接失调（混乱）的程度（参见下图）。

文章中用癌症和正常样本做对比，说明了在癌症中转录本的剪接失调情况会很多。剪接失调的基因中很多是剪接因子。并且文章通过以往数据分析了剪接失调同癌症的细胞增殖有着一定的关系。

Imgur

单词本

英文	中文	英文	中文
perturbation	忧虑，不安，摄动	surrogate	代理
foetal	胎儿

3.Expression of 24,426 human alternative splicing events and predicted cis regulation in 48 tissues and cell lines

本文用的是microarray数据来检测cassette exon splicing的情况，主要监测了inclusion和exclusion的已知cassette exon。比较老，2008年的文章，有chaolin zhang参与。

在不同组织中有剪接的exon的表达情况各不相同。他们围绕调控的外显子抽取8个区域（区域见下图）的序列，在序列中找4mer到7mer的“words”，对看这些words的富集情况，从而获得剪接相关的调控元件。

Imgur

之后是对高精度RNA可见剪接图谱的研究，对每种检测到的关键motif的特点和潜在功能进行分析，并预测RNA结合蛋白和motif之间的关系。

单词本

英文	中文	英文	中文
in silico	电脑模拟	in vivo	生物活体内
in vitro	生物活体外	pyrimidine	嘧啶

4.Estimation of alternative splicing variability in human populations

这篇文章评估了可变剪接多样性在两个人群（高加索人，尼日利亚人）里的相同点和差异。

文章中采用CV（coefficient of variation）对基因和转录本的表达量多样性进行了评估，采用splicing ratio \(f_i=\frac{x_i}{\lambda}\)（即某个剪接形式的转录本拷贝数\(x_i\)占这个基因所有转录本拷贝数\(\lambda\)的比例）结论是基因表达比splicing ratio对于转录本富集的调控贡献较大。

文中将使用同一个TSS的转录本定义位一个基因的转录本，一开始研究了lncRNA然后发现lncRNA看不出什么明显结论，就只研究mRNA了，在研究时用到了Hellinger distance来球splicing ratio的variability（变化程度）。

分析方法和数据对比（在两个人群中）应该是这篇文章的优点。

单词本

英文	中文	英文	中文
deconvolute	去卷积	Caucasian	高加索人，白人
Yoruban	约鲁巴人	Nigerian	尼日利亚人
overdispersion	不平均分布，过离散	centroid	质心

5.Epigenetic features are significantly associated with alternative splicing

这篇文章是出自Tian Weidong老师的实验室。主要刻画了表观遗传学特征同可变剪接的关系。我很早之前在JC上讲过，感觉是一篇细节问题较多的文章。

具体来说文章里研究了组蛋白修饰，9个转录因子，CTCF和RNA Pol II同可变剪接外显子的关系。这个文章中有很多小问题，感觉做得不严谨，主要在于对表观遗传学数据，并不是所有的都减去input做标准化。

首先，文章一开始的背景里说剪接事件可以分为：cassette exon, exon skipping, blablabla的，我就没弄清楚这里专门指出的 cassette exon 同 exon skipping 的区别在哪里。我还专门翻了翻后面带的那两篇引用文章，写得都是cassette exon。在result部分就没再出现cassette exon，只用了exon skipping，且这里特指skip单个exon的情况（即不会连续2个或以上的exon都被skip）。

还有就是，研究的数据有一部分同前面我做过笔记的文章中的类似，用的都是ENCODE的RNA-seq外加组蛋白修饰、转录因子，CTCF以及RNA Pol II的数据。计算的时候还一般都从bam或者wig文件开始，有没有考虑过实验之间的差异性以及如何度量或者减少这类问题？这些数据的mapping质量到底怎么样？

文中最逗的就是关于组蛋白修饰和input的问题，在Figure2中没有做control(input)的处理，但是在Figure6中就做了input的矫正。也就是文中的最后一个小节专门讲述矫正后的结果是什么样子。另外在附录里有Figure2情况下input的数据分布情况。为什么不全部矫正后画图呢？像这样有时做矫正，有时不做矫正，会对理解造成困扰。感觉像是在review后添加了矫正的内容。

还要再啰嗦一句，文中使用的那个对转录本分类的脚本，我也没测试成功，可能是我的输入数据里面有处理不了的转录本。

整篇文章中介绍的方法是可取的，只是很多不严谨的地方，让结果不是那么可信。

单词本

英文	中文	英文	中文
dinucleotide	二核苷酸	investigate	考察

（这个系列未完待续，每次更新5篇为一个post）

On Your Mark

Never give up, Dream big