生活小窍门-_-b,终于我也沦落到要写这种内容的时候了。

最近移动硬盘一直不太配合,今天彻底无法链接到电脑,测试了多次,最终定位是移动硬盘盒的问题(SSK的,用了不到一年)。 记录一下相关的操作方法。

电脑无法链接移动硬盘(设备描述符请求失败)

测试:如果在链接电脑时会听见滴滴的声音,说明是供电有问题。 步骤1:在上述条件下,若电脑无法显示链接,请拔掉连线重新链接,并测试设备管理器里的usb驱动是否有问题,停止使用并重新扫描。 步骤2:若还无法解决且移动硬盘是2.5寸的,可以将其换到笔记本电脑上,查看是否可以正常使用。若是3.5寸的,需要连接台式机进行测试。 上述测试若硬盘可以在电脑里正常读取,则说明问题出在移动硬盘盒上。(此时可以将重要的数据拷到U盘里备份) 结论:需要购买新的移动硬盘盒。

还没修好!快要沦落到开盘了! 20160330

固态硬盘选购

现在的新笔记本都有专门的固态硬盘MSATA接口,不需要旧的像2.5寸盘大小的SATA3固态硬盘了,买MSATA固态硬盘。 占用空间比内存条还小。

系统

赶紧升级到windows10吧,比7和8强了不止一点。

屏幕

如果笔记本屏幕坏了,什么方法能最快的将数据导出? 一般学校都会有投影仪,将笔记本接到投影仪上,打开投影仪当作屏幕。 之后请找笔记本售后服务商进行换屏(普通笔记本一般屏幕200左右,人工费用也就几十元,经同学杨老板亲测)。

买什么笔记本好?

对于做计算,写代码,绘图为主的用户,有钱请上水果,没钱请上船。

十年河东,十年河西,10年前完全不会考虑的品牌(神舟),现在已经很良心了(但品控不好,靠人品)。

我觉得笔记本没必要买外星人,有那么多钱还不如配个台式机,那么沉的外星人,即便买了也不会天天背着跑。


思前想后,还是开了这个目录,要不有些东西写了就归类不能了。

今天谈一下ChIP-seq流程以及数据control的问题。ChIP是染色质免疫共沉淀,基本原理是在活细胞状态下固定蛋白质-DNA复合物,并将其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方法沉淀此复合体,特异性地富集目的蛋白结合的DNA片段,通过对目的片断的纯化与检测,从而获得蛋白质与DNA相互作用的信息。

ChIP-seq的流程中一定要有去除deplication的步骤,虽然网上讨论中大家总是谨慎的回答it depends on…blablabla…

ChIP中一般会用到对照数据,对照数据就是在不特意富集所研究的蛋白结合的DNA片段情况下,有多少DNA片段可以纯化并检验出来。

一般有两种对照,一种是Mock IP(看看在不用抗体的情况下有哪些蛋白会和DNA结合),另一种是直接检测input DNA。在最后1列出了一个非常好的ChIP教学文档,里面介绍了抓IgG和input DNA究竟是怎么一回事。

首先说input DNA:这是通过整套流程,但没有用抗体去筛选DNA片段时,最后会被纯化下来的DNA片段,即:这些片段不代表同转录因子相结合的区域。 接下来是Mock IP:这是通过类似的ChIP处理,但不抓想研究的蛋白时,纯化出的一些同蛋白相结合的DNA片段。

一般情况下优先选择Input DNA方法,第二种方法有正义(究竟这么抓到的DNA能否做对照?我对此持怀疑态度)。

另外,Treatment和control的处理也需要关注,在call peaks的时候要选择会用Control做校正的方法。 如果是自己处理,查找Treatment的分布信息,也要做校正,否则就像我之间讨论过的某篇文章一样。

参考资料


1.Gene isoform specificity through enhancer-associated antisense transcription

我都不知道为什么我会有这篇文章的纸质版。

该文章讲enhancer-associated antisense transcript(算不算一种eRNA?)对gene异构体的调控作用。

文章没意思,直接删了,把摘要贴一下:

Enhancers and antisense RNAs play key roles in transcriptional regulation through differing mechanisms. Recent studies have demonstrated that enhancers are often associated with non-coding RNAs (ncRNAs), yet the functional role of these enhancer:ncRNA associations is unclear. Using RNA-Sequencing to interrogate the transcriptomes of undifferentiated mouse embryonic stem cells (mESCs) and their derived neural precursor cells (NPs), we identified two novel enhancer-associated antisense transcripts that appear to control isoform-specific expression of their overlapping protein-coding genes. In each case, an enhancer internal to a protein-coding gene drives an antisense RNA in mESCs but not in NPs. Expression of the antisense RNA is correlated with expression of a shorter isoform of the associated sense gene that is not present when the antisense RNA is not expressed. We demonstrate that expression of the antisense transcripts as well as expression of the short sense isoforms correlates with enhancer activity at these two loci. Further, overexpression and knockdown experiments suggest the antisense transcripts regulate expression of their associated sense genes via cis-acting mechanisms. Interestingly, the protein-coding genes involved in these two examples, Zmynd8 and Brd1, share many functional domains, yet their antisense ncRNAs show no homology to each other and are not present in non-murine mammalian lineages, such as the primate lineage. The lack of homology in the antisense ncRNAs indicates they have evolved independently of each other and suggests that this mode of lineage-specific transcriptional regulation may be more widespread in other cell types and organisms. Our findings present a new view of enhancer action wherein enhancers may direct isoform-specific expression of genes through ncRNA intermediates.


1.Accurate identification of alternatively spliced exons using support vector machine

这篇文章发表了10多年了,是介绍SVM如何用于区分可变剪接外显子的。 如果想了解机器学习方法应用的,建议从这篇开始学习。

不过由于生物问题的复杂性,文章中用了243个可变剪接的外显子,1753个非可变剪接的外显子。 这个非平衡样本问题,即正样本(可变剪接)和负样本(非可变剪接)的差异很大。 解决这类问题的方法很多,例如:1.重抽样凑成平衡样本;2.加一些附加数据集;3.采用惩罚模型。

但是从这篇文章中我好像没有具体看到相应的对策。

文章中采用的是binary classification。一共228个特征,包括序列碱基信息,三联密码子信息,外显子长度等特征。

文中也做了False Positive Rate和Ture positive rate(ROC曲线)分析。并且比较了Naive-Bayes和neural net work方法。

特征选择的时候,使用Golub等人的方法,这种方法感觉就是找特征在正负样本中差异大的。

最后结果在10 fold cross validation后AUC可以达到0.93。

单词本

英文 中文 英文 中文
brute-force enumeration 暴力枚举 merit 价值
slack 松弛 convey 传递,表达
heuristic 启发式 pyrimidine 嘧啶
stretche 延伸 concatenation 一系列互相关联的事物

2.Widespread establishment and regulatory impact of Alu exons in human genes

Yi Xing(邢毅)老师组里的工作,他们组专门研究转录调控,从文章里可以学到不少东西。 本文是介绍alu exon在基因中的调控作用,实验和分析相结合。有高剪接活动的Alu exons富集在5’-UTR区域。 文章里的东西可以说是对Alu exon同转录关系的一个较为全面的总结。

3.Automated classification of alternative splicing and transcriptional initiation and construction of visual database of classified patterns

这篇文章是讲述如何对可变剪接类型进行分类,并且还做了个可视化的数据库(网站)。

我关注这篇的内容就在它如何对可见剪接分类,方法挺有意思的,就是对外显子和内含子(基因间区)用二进制进行标注,然后找相似的pattern进行合并。 合并后,又进行了二进制到十进制的转换。已知的一些可变剪接pattern可以换算成这样的十进制数字,然后从基因组上的所有可变5’端和可变剪接换算成的结果中进行查找, 找到一样的,就说明这个可变剪接模式是已知的哪种。

文章的精华全在Figure1和Figure2。

单词本

英文 中文 英文 中文
atypical 非典型 miscellaneous 杂项
herein 此处 decimal 十进制

3.ARH: predicting splice variants from genome-wide data with modified entropy

这是一篇算法文章,预测剪接变异,用的是Affymetrix exon array的数据。

文章中主要用一组公式计算了对转录本剪接的评价:1.在基因层面是区分有可变剪接的基因;2.在外显子层面计算了剪接的离差(偏差)。 在公式(2)中用了以2为底的指数\(p_{g,e}=\frac{2^{\mathopen|\zeta_{g,e}\mathclose|}}{\sum\nolimits_{e=1,...,m} 2^{\mathopen|\zeta_{g,e}\mathclose|}}\)来计算exon splicing probability,没想明白为什么要以2为底(成比例放大便于计算?)。 最后他们加上熵以及权重项搞了个ARH数值(权重*熵,凑一凑),如果这个数值>0.03暗示着剪接现象。

算法实现可以学习一下,一般自己弄个有指示意义的数值也差不多的玩法。

单词本

英文 中文 英文 中文
deviation 离差,偏差 constitute 构成
per se 本质上    

4.Discovery and Analysis of Evolutionarily Conserved Intronic Splicing Regulatory Elements

这篇文中着重从基因组层面的信息来寻找同剪接调控相关的元件(内含子剪接调控元件)。文章中把剪接元件序列能研究的内容做的挺全面的,虽然我认为得到的结论也不是很强。

简要记录一下找寻intronic splicing regulatory elements(ISREs)的步骤:

  1. 首先从基因组中抽出保守的外显子和外显子两侧的区域。去掉第一个外显子,外显子上下游的内含子区域分别为400bp,区域截取这么长是为了避免只找到microRNA和snoRNA序列。
  2. 统计5mer-7mer的短序列。用chisq来计算相同长度的短序列之间的相关性。并排除再启动子上enrich的TFBS序列。这里就有一个问题,TFBS不光在启动子上,所以只排除启动子上的是不严谨的。
  3. 聚类,聚类方法好复杂,是他们自己设计的。具体如下:
    • 将长序列同短序列进行比较,如果长序列包含短序列或者chisq相关性高,那么这样的长序列是短序列的“家长”
    • 将短序列同长序列进行比较,如果短序列是长序列的子集或者chisq相关性低,并且这个短序列不是一个“家长”,那么短序列是长序列的“孩子”
    • 合并这样的小“家庭”,条件是:“家长”序列有5个碱基相同,在合并的“家庭”中,家长是有最高chisq分值的序列。如果“孩子”有不止一位“家长”,那么chisq分值最高的是它直接关联“家长”。

这个聚类方式的好处是:1.保证聚类的集合(“家庭”)里的序列高度保守;2.粗劣都是根据实际序列的相似性来聚集的,这些实际序列都是生物学序列可以被实验验证。(这一点是要说明positional weight matirces PWMs不好,因为PWMs统计的序列可能在实际基因组中根本不存在)

文章中也有一句话没看明白。

An important caveat in our analysis is that on occasion we had more than one cluster with motifs that might have been grouped as one cluster by other clustering methods.

这句话是说有些时候多余一个的motif簇会被用其他聚类方式聚成一类,但是为什么这样?

单词本

英文 中文 英文 中文
caveat 警告 resemble
canonical 规范 cognate 同源

5.MATLIGN: a motif clustering, comparison and matching tool

这是做motif聚类的一篇文章,由于上一篇是关于短序列的,所以这篇就少为跑个题,写一个看过的motif聚类相关的文章。

文章是作者写了个工具做motif聚类,这个工具的优势是对于position frequency matrices(PFM)和degenerate consensus sequences(简并一致序列)都可以做分析。 所用的方法无外乎是那些距离:Kendalls tau rank corre- lation coefficient (I), Spearman’s rank correlation coeffi- cient (II), Pearson correlation coefficient (III), normalised Euclidean distance (IV) and evolutionary substitution score (V), 或者这些方法的结合。 有了距离后就用自下而上的聚类方法(Agglomerative hierarchical clustering)来聚类,之后根据silhouette value来优化子集合的数量。

文章中还介绍了计算蛋白质序列的距离用spearman和pearson 相关性方法比较好。

单词本

英文 中文 英文 中文
stochastically 随机 repetition 重复
heterodimer 异源二聚体 agglomerative 凝聚

关注Docker有一段时间了,几个月前想在服务器上安装,但是32位的Ubuntu服务器装起来很麻烦,源还不好用,计划遂搁浅。 今日在台式机上安装了,可以愉快玩耍。安装方式参考官方文档(Fedora)。 建议直接dnf install docker-engine来安装。 在开始安装试用后,我对docker是什么还一无所知。在测试了“hello-world”,“docker/whalesay”和“ubuntu”三个镜像后,发现了好玩的地方,我可以在Fedora上玩Ubuntu了

我的第一直觉认为docker像一个虚拟机,例如可以在Fedora上虚拟一个Ubuntu出来,之前经常需要转换多个linux和windows系统来做的package功能测试,现在在linux下就不用转换系统了。 当然docker应该与vm不同,所以我简单搜索了一下大家对此的解释。 简而言之Docker是操作系统级别的轻量级虚拟化技术,没有做到虚拟机的全虚拟化(硬件仿真虚拟化)。所以应用起来比虚拟机要快速,创建一个镜像秒开。

为什么会关注这个?因为生物信息软件多种多样(C写的,Java写的,python/perl写的等等),在不同环境下安装起来太麻烦了,我们需要一个简单的部署和分发平台,目前有BioDocker这个解决方案,也有人在开发类似CRAN/bioconductor/github的软件分发平台。

究竟以后会变成什么样子呢?拭目以待。

附注:docker run image命令

service dockter start
docker images
docker run -t -i ubuntu /bin/bash