比特币与统计套利
推荐一篇zhihu上的文章《青铜时代:中本聪之惑》 讲述两人利用比特币平台之间的差价做套利的故事。
我自己知道比特币是在大学初期,当时自己的台式机器没有挖掘的能力,下载了比特币钱包,挂了一晚上都没有结果,之后就不了了之,钱包也删除了。然后比特币火起来的时候关注了一些山寨币,由于山寨币毕竟是山寨货没有什么投资价值,遂放弃关注这个方面。
最近看了看股市新闻,发现一个金融产品若出现长时间(至少两个月)利好。一定要尽早抓住投资,做一到三个月的短期交易,回报有时候会很大。
多组织间的DNA甲基化系统研究
前一段时间有幸聆听了杨晓飞做的关于DNA甲基化相关的报告,现在简要回顾一下他们这篇文章的内容。另外这个工作的参与者里还有Xiaojian Shao老师,不过他挂名的工作单位实在是太奇怪了_-_
。另外这篇文章是收费的,所有Supplementary无法下载-_-'
Systematic DNA methylation analysis of multiple cell lines reveals common and specific patterns within and across tissues of origin
这个工作主要是用定义并设计了一个方法找出DNA甲基化相关位置(local clusters of CpG sites),并在获得的DNA甲基化区段内进行多组织间的分析。
整个工作分为三个层次:
- 找寻DNA甲基化在各个组织间的common pattern
- 在基因组上的富集情况
- 功能
- 同(基因)表达的相关性
- 细胞谱系特异性的pattern
- 甲基化pattern
- 在基因组上的富集情况
- motif的富集情况
- 细胞系特异性的pattern
- 甲基化pattern
- 功能的富集
- 同(基因)表达的相关性
1.local clusters of CpG sites(LCCS)的找寻方法
本文采用的ENCODE项目reduced representation bisulfite sequencing (RRBS)的甲基化数据,一共用了54正常细胞系。
根据我自己对数据的理解,由于RRBS数据只是在一些位点测定了DNA的甲基化情况,而不是全基因组测定DNA甲基化情况,所以位点比较稀疏。
local clusters of CpG sites的就是把DNA甲基化位点密集的区域变成一个unit,对DNA甲基化位点进行聚类。具体的聚类方法如下(意思差不多,这个是我听讲座后自己总结的):
- 找到在整个基因组上距离最近的两个甲基化位点,将这两个点归为一个unit
- 从这两个点的上下游找寻距离这个unit最近的一个甲基化位点,把这第三个甲基化位点放入unit里
- 重复第二个步骤,直到这个unit的长度达到500bp(不超过500bp),这样就选出了一个LCCS
- 接下来再次进行第一到第三步骤,直至所有的甲基化位点都成为某个LCCS的一部分
最终在所有用于研究的细胞系中,他们找到了35276个LCCSs,LCCSs的长度中位数是79bp,每个LCCS上有7个CpG。对于大多数LCCSs(21417,60.7%)甲基化比例(percent methylated value,简称为PM)的方差小于5。
2.加权LCCS共甲基化网络的分析展示出不同生物(过程)相关的共甲基化模块
下面所有分析中没有对DNA甲基化数据做样本间的normalization,当时演讲人说ENCODE网站上有信息说这些数据可以相互比较。
本文中将LCCSs进行聚类,发现了7个group(module 模块),这7个模块中5个是高甲基化的,2个是低甲基化的。高甲基化的区域多在非编码,基因体,open sea1,低甲基化的区域多为启动子, CpG islands(CGI)在open sea区域很少见。接下来,就是对高甲基化和低甲基化区域(各个模块)的分析(关于功能,以及同基因表达的相关性),没有什么有意思的发现,就不赘述了。
在什么地方用到了网络? 为了度量不同细胞系之间的LCCS是否相似,文中采用加权LCCS共甲基化网络,找出细胞系之间相似的甲基化LCCS模块。
3.细胞谱系特异性的pattern分析
首先对LCCSs根据细胞谱系进行聚类(血液、肝脏、肺、心脏等),发现细胞谱系特异性的DNA甲基化多富集在基因体 和非CpG岛区域。之后就找了在低甲基化的LCCSs区域内的motif,发现了一些同转录调控相关的蛋白motif。最后找到了同细胞谱系特异性的LCCSs相关的一些基因,这些基因根据资料也的确是细胞谱系特异性表达。
4.细胞系特异性的pattern
本文中发现细胞特异性的LCCSs富集在不同的染色质状态(chromatin states),细胞系特异性的高甲基化LCCSs在weak transcriptional state富集,低甲基化的LCCSs富集在活跃的启动子和增强子区域。
分析软件
- WGCNA package
- HOMER
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
deplete | 用尽,少有 | intragenic | 基因内 |
antagonism | 对立,相克 |
附注
人类胚胎以及胚胎干细胞的单细胞RNA测序数据分析
Single cell RNA seq profiling of human preimplantation embryos and embryonic stem cells
Nature Structural & Molecular Biology 20, 1131–1139 (2013) doi:10.1038/nsmb.2660
Received 18 July 2013 Accepted 05 August 2013 Published online 11 August 2013
http://www.nature.com/nsmb/journal/v20/n9/full/nsmb.2660.html
本文一共对胚胎以及胚胎干细胞系阶段的124个单细胞进行测序。分析了RNA表达情况,是关于单细胞RNA方面的一篇早期研究文章。
主要研究结论
1.不同细胞类型间的转录情况分析
本文研究的细胞类型包括卵母细胞,受精卵,2细胞卵裂球,4细胞卵裂球,8细胞卵裂球,桑椹胚,晚期囊胚,hESC细胞,传代10代后的hESC细胞。所有细胞经过了严格的形态学筛选。以往研究中已经确认在4细胞和8细胞阶段基因的表达情况会有极大的改变,该阶段是Maternal to zygotic transition (MZT) 期。 本文在单细胞中测得属于RefSeq基因列表里的11006个基因(占所有RefSeq基因的49%)以及RefSeq转录本列表中18002个转录本(占总体的48%)。对于受精卵胚胎细胞的表达水平(RPKM>0.1)进行了聚类分析以及主成份分析,分析发现8细胞阶段和桑椹胚阶段的的表达水平有些类似。在人类中MZT阶段主要是在8细胞时期,文中找到了2495个显著上调的基因(zygotic gene activation),上调基因的功能多富集在RNA新陈代谢,RNA剪接,核糖核蛋白复合物的生成,核糖体的产生中。
2.可变剪接的动态模式
文中分析的基因里有4822个基因至少产生了2个转录本。根据转录本特异性的外显子连接区域(junction)序列的唯一比对(uniquely mapping),有20%(总数4822)的基因产生了2个以上的转录本,最高达到7个转录本。在所研究的7个发育阶段中(卵母细胞,受精卵,2细胞卵裂球,4细胞卵裂球,8细胞卵裂球,桑椹胚,晚期囊胚)只有206个基因在每个阶段都有多转录本的表达,其他的基因的多转录本只在特定的几个阶段中能检测到。另外,至少66%的情况下,基因所表达的主要异构体(major isoform)别其他的异构体表达量高2倍。另外文中以forkhead box(FOX) transcriptional factor, FOXP1为例子,说明了一个ESC阶段特异性转录本异构体有一个外显子(exon 18b),这个异构体编码出的蛋白质与维持细胞多功能性相关,在体外胚胎干细胞中检测到的exon 18b是exon 18a的25倍。但是这幅图上(见下方),还展示了一个非特异性表达的外显子exon 19,图中可以看到这个外显子在PE(原始内胚层)时期没有表达量数据,这个究竟是为什么,文中没有给出解释。
3.长非编码RNA(lncRNA)的表达情况
如果把所有的数据(124个细胞?)整合在一起分析,lncRNA的转录本拷贝数量均值是蛋白编码基因的十分之一(10%),同前人的数据结果较为一致。但是,如果对于每个单细胞进行分析,lncRNA的拷贝数量均值可以达到蛋白编码基因的40.5%。文章中只有在这里用到了拷贝数量(copy number)这个词组,我不知道这个是指普通意义上的DNA上的gene copy number还是表达量水平。
4.未知的蛋白编码转录本以及lncRNA
为了找寻未知的新转录本,文中,首先排除了在已知基因上下游10kb范围内找到的未知转录本,并认为这些潜在的未知转录本可能是已知基因的一部分。接下来,对在排除后的区域内找到的新转录本进行了分析,从转录本长度,保守性方面说明文中所找到的新转录本同已知的转录本很相似,并且也看到了一些转录本在7个发育阶段的表达水平有很大的差异,说明这些新找出的转录本参与到了胚胎的发育调控中。
5.hESCs和外胚层细胞的异同点(tracing pluripotency during the derivation of hESCs)
hESCs是从囊胚内团细胞(inner cell mass)的外胚层中分化来的,但是关于hESCs同外胚层细胞的异同点的全面分析却很少。本文分析了晚期囊胚阶段的30个细胞(分别属于桑椹胚滋养外胚层(mural TE),极滋养外胚层细胞(polar TE),外胚层以及原始内胚层),对已知RefSeq基因的表达情况进行聚类分析(在聚类中用到了bootstrap)。并对一些marker基因在外胚层、滋养外胚层、原始内胚层中的相对表达情况做了分析。之后又对hESCs细胞以及EPI细胞中的上下调的多功能性marker基因进行了分析,分析结果既有一致性,又有区别。说明hESCs细胞与EPI细胞的基因表达有区别。这种区别不仅体现在已知的基因中,对于文章找到的新转录本和lncRNA也存在着类似的区别。最后他们还分析了hESCs同小鼠胚胎干细胞之间的关系(mEpiSCs),分析发现hESCs同mEpiSCs比较类似,mEpiSC特异性的marker基因在hESCs中高表达,但是mESC特异性的marker基因表达量不高。
分析软件
- clValid package (
SOTA function
) - Coding Potential Calculator (求保守性水平 \(\omega\) metric)
- pvclust package
- Cufflinks
- Trinity (de novo transcriptome reconstruction)
- PASA (eukaryotic genome annotation tool)
- Cluster (gene expression pattern)
- JavaTreeview (gene expression pattern)
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
preimplantation | 胚胎植入前 | maternal | 母系 |
epiblast(EPI) | 外胚层 | in vitro | 体外 |
blastomere | 卵裂球 | oocyte | 卵母细胞 |
maternal-zygotic transition | 母系-合子过渡期 | segregation | 分离 |
trophectoderm | 滋养外胚层 | fibroblast | 成纤维细胞 |
triplet | 三联体 | orthologous | 直系同源 |
bovine | 牛 | blastocyst | 胚囊 |
facilitated | 便利 | pluripotency | 多能性 |
derivation | 起源,衍生 | metaphase | 中期 |
zygote | 受精卵 | morula | 桑椹胚 |
Late blastocyst | 晚期囊胚 | lineage | 谱系 |
morphological | 形态学 | stringent | 严格的 |
criteria | 标准 | germ | 生殖 |
gamete | 配子 | phosphorylation | 磷酸化 |
metabolism | 新陈代谢 | ribonucleoprotein | 核糖核蛋白 |
biogenesis | 合成 | ribosome | 核糖体 |
primitive endoderm | 原始内胚层 | maintenance | 维持 |
inherite | 遗传 | drastically | 彻底 |
hatch | 孵化 | subtly | 巧妙地 |
precursor | 先导 | cytokine | 细胞因子 |
cryopreservation | 冷冻保存 | pave | 铺 |
dissect | 解剖 | reproductive | 生殖 |
lysate | 裂解液 | deoxynucleotidyl transferase | 脱氧核苷酸转移酶 |
culture | 培养 | immunostain | 免疫染色 |
karyotype | 核型 | teratoma | 畸胎瘤 |
heteroscedasticity | 异方差性 | passage | 传代 |
入夏后笔记本电脑罢工
入夏后,由于笔记本电脑太老,散热性能差,每次开机10分钟后就热得支撑不住,经常罢工,所有project更新减缓。
Authorea——在线科研文档协同写作
Authorea是个挺有意思的网站,目的是为了让科学家更好的协同写作,支持GIT/IPYTHON,写作方式支持LATEX/Markdown。感觉有点像Github。注册后可以免费建立无数篇公开文档,和1篇私有文档。需要更多的私有文档,需要购买收费服务。文档还支持导出成pdf, word(rtf), LaTeX等多种格式。在网页文章中有批注功能,这让协同写作越来越方便了。
那么现在问题来了,有多少人的协同写作文档是可以在写作时就公开的?其实推广还是有一些问题存在的。
持续关注中,貌似用这个来合作记录课堂笔记比较好。