推荐一篇zhihu上的文章《青铜时代:中本聪之惑》 讲述两人利用比特币平台之间的差价做套利的故事。

我自己知道比特币是在大学初期,当时自己的台式机器没有挖掘的能力,下载了比特币钱包,挂了一晚上都没有结果,之后就不了了之,钱包也删除了。然后比特币火起来的时候关注了一些山寨币,由于山寨币毕竟是山寨货没有什么投资价值,遂放弃关注这个方面。

最近看了看股市新闻,发现一个金融产品若出现长时间(至少两个月)利好。一定要尽早抓住投资,做一到三个月的短期交易,回报有时候会很大。


前一段时间有幸聆听了杨晓飞做的关于DNA甲基化相关的报告,现在简要回顾一下他们这篇文章的内容。另外这个工作的参与者里还有Xiaojian Shao老师,不过他挂名的工作单位实在是太奇怪了_-_。另外这篇文章是收费的,所有Supplementary无法下载-_-'

Systematic DNA methylation analysis of multiple cell lines reveals common and specific patterns within and across tissues of origin

这个工作主要是用定义并设计了一个方法找出DNA甲基化相关位置(local clusters of CpG sites),并在获得的DNA甲基化区段内进行多组织间的分析。

整个工作分为三个层次:

  • 找寻DNA甲基化在各个组织间的common pattern
    • 在基因组上的富集情况
    • 功能
    • 同(基因)表达的相关性
  • 细胞谱系特异性的pattern
    • 甲基化pattern
    • 在基因组上的富集情况
    • motif的富集情况
  • 细胞系特异性的pattern
    • 甲基化pattern
    • 功能的富集
    • 同(基因)表达的相关性

1.local clusters of CpG sites(LCCS)的找寻方法

本文采用的ENCODE项目reduced representation bisulfite sequencing (RRBS)的甲基化数据,一共用了54正常细胞系。

根据我自己对数据的理解,由于RRBS数据只是在一些位点测定了DNA的甲基化情况,而不是全基因组测定DNA甲基化情况,所以位点比较稀疏。

local clusters of CpG sites的就是把DNA甲基化位点密集的区域变成一个unit,对DNA甲基化位点进行聚类。具体的聚类方法如下(意思差不多,这个是我听讲座后自己总结的):

  1. 找到在整个基因组上距离最近的两个甲基化位点,将这两个点归为一个unit
  2. 从这两个点的上下游找寻距离这个unit最近的一个甲基化位点,把这第三个甲基化位点放入unit里
  3. 重复第二个步骤,直到这个unit的长度达到500bp(不超过500bp),这样就选出了一个LCCS
  4. 接下来再次进行第一到第三步骤,直至所有的甲基化位点都成为某个LCCS的一部分

最终在所有用于研究的细胞系中,他们找到了35276个LCCSs,LCCSs的长度中位数是79bp,每个LCCS上有7个CpG。对于大多数LCCSs(21417,60.7%)甲基化比例(percent methylated value,简称为PM)的方差小于5。

2.加权LCCS共甲基化网络的分析展示出不同生物(过程)相关的共甲基化模块

下面所有分析中没有对DNA甲基化数据做样本间的normalization,当时演讲人说ENCODE网站上有信息说这些数据可以相互比较。

本文中将LCCSs进行聚类,发现了7个group(module 模块),这7个模块中5个是高甲基化的,2个是低甲基化的。高甲基化的区域多在非编码,基因体,open sea1,低甲基化的区域多为启动子, CpG islands(CGI)在open sea区域很少见。接下来,就是对高甲基化和低甲基化区域(各个模块)的分析(关于功能,以及同基因表达的相关性),没有什么有意思的发现,就不赘述了。

在什么地方用到了网络? 为了度量不同细胞系之间的LCCS是否相似,文中采用加权LCCS共甲基化网络,找出细胞系之间相似的甲基化LCCS模块。

3.细胞谱系特异性的pattern分析

首先对LCCSs根据细胞谱系进行聚类(血液、肝脏、肺、心脏等),发现细胞谱系特异性的DNA甲基化多富集在基因体 和非CpG岛区域。之后就找了在低甲基化的LCCSs区域内的motif,发现了一些同转录调控相关的蛋白motif。最后找到了同细胞谱系特异性的LCCSs相关的一些基因,这些基因根据资料也的确是细胞谱系特异性表达。

4.细胞系特异性的pattern

本文中发现细胞特异性的LCCSs富集在不同的染色质状态(chromatin states),细胞系特异性的高甲基化LCCSs在weak transcriptional state富集,低甲基化的LCCSs富集在活跃的启动子和增强子区域。

分析软件

  • WGCNA package
  • HOMER

单词本

英文 中文 英文 中文
deplete 用尽,少有 intragenic 基因内
antagonism 对立,相克    

附注

CpG islands/shores/shelves/open sea


Single cell RNA seq profiling of human preimplantation embryos and embryonic stem cells

Nature Structural & Molecular Biology 20, 1131–1139 (2013) doi:10.1038/nsmb.2660

Received 18 July 2013 Accepted 05 August 2013 Published online 11 August 2013

http://www.nature.com/nsmb/journal/v20/n9/full/nsmb.2660.html

本文一共对胚胎以及胚胎干细胞系阶段的124个单细胞进行测序。分析了RNA表达情况,是关于单细胞RNA方面的一篇早期研究文章。

主要研究结论

1.不同细胞类型间的转录情况分析

本文研究的细胞类型包括卵母细胞,受精卵,2细胞卵裂球,4细胞卵裂球,8细胞卵裂球,桑椹胚,晚期囊胚,hESC细胞,传代10代后的hESC细胞。所有细胞经过了严格的形态学筛选。以往研究中已经确认在4细胞和8细胞阶段基因的表达情况会有极大的改变,该阶段是Maternal to zygotic transition (MZT) 期。 本文在单细胞中测得属于RefSeq基因列表里的11006个基因(占所有RefSeq基因的49%)以及RefSeq转录本列表中18002个转录本(占总体的48%)。对于受精卵胚胎细胞的表达水平(RPKM>0.1)进行了聚类分析以及主成份分析,分析发现8细胞阶段和桑椹胚阶段的的表达水平有些类似。在人类中MZT阶段主要是在8细胞时期,文中找到了2495个显著上调的基因(zygotic gene activation),上调基因的功能多富集在RNA新陈代谢,RNA剪接,核糖核蛋白复合物的生成,核糖体的产生中。

2.可变剪接的动态模式

文中分析的基因里有4822个基因至少产生了2个转录本。根据转录本特异性的外显子连接区域(junction)序列的唯一比对(uniquely mapping),有20%(总数4822)的基因产生了2个以上的转录本,最高达到7个转录本。在所研究的7个发育阶段中(卵母细胞,受精卵,2细胞卵裂球,4细胞卵裂球,8细胞卵裂球,桑椹胚,晚期囊胚)只有206个基因在每个阶段都有多转录本的表达,其他的基因的多转录本只在特定的几个阶段中能检测到。另外,至少66%的情况下,基因所表达的主要异构体(major isoform)别其他的异构体表达量高2倍。另外文中以forkhead box(FOX) transcriptional factor, FOXP1为例子,说明了一个ESC阶段特异性转录本异构体有一个外显子(exon 18b),这个异构体编码出的蛋白质与维持细胞多功能性相关,在体外胚胎干细胞中检测到的exon 18b是exon 18a的25倍。但是这幅图上(见下方),还展示了一个非特异性表达的外显子exon 19,图中可以看到这个外显子在PE(原始内胚层)时期没有表达量数据,这个究竟是为什么,文中没有给出解释。

fig3D

3.长非编码RNA(lncRNA)的表达情况

如果把所有的数据(124个细胞?)整合在一起分析,lncRNA的转录本拷贝数量均值是蛋白编码基因的十分之一(10%),同前人的数据结果较为一致。但是,如果对于每个单细胞进行分析,lncRNA的拷贝数量均值可以达到蛋白编码基因的40.5%。文章中只有在这里用到了拷贝数量(copy number)这个词组,我不知道这个是指普通意义上的DNA上的gene copy number还是表达量水平。

4.未知的蛋白编码转录本以及lncRNA

为了找寻未知的新转录本,文中,首先排除了在已知基因上下游10kb范围内找到的未知转录本,并认为这些潜在的未知转录本可能是已知基因的一部分。接下来,对在排除后的区域内找到的新转录本进行了分析,从转录本长度,保守性方面说明文中所找到的新转录本同已知的转录本很相似,并且也看到了一些转录本在7个发育阶段的表达水平有很大的差异,说明这些新找出的转录本参与到了胚胎的发育调控中。

5.hESCs和外胚层细胞的异同点(tracing pluripotency during the derivation of hESCs)

hESCs是从囊胚内团细胞(inner cell mass)的外胚层中分化来的,但是关于hESCs同外胚层细胞的异同点的全面分析却很少。本文分析了晚期囊胚阶段的30个细胞(分别属于桑椹胚滋养外胚层(mural TE),极滋养外胚层细胞(polar TE),外胚层以及原始内胚层),对已知RefSeq基因的表达情况进行聚类分析(在聚类中用到了bootstrap)。并对一些marker基因在外胚层、滋养外胚层、原始内胚层中的相对表达情况做了分析。之后又对hESCs细胞以及EPI细胞中的上下调的多功能性marker基因进行了分析,分析结果既有一致性,又有区别。说明hESCs细胞与EPI细胞的基因表达有区别。这种区别不仅体现在已知的基因中,对于文章找到的新转录本和lncRNA也存在着类似的区别。最后他们还分析了hESCs同小鼠胚胎干细胞之间的关系(mEpiSCs),分析发现hESCs同mEpiSCs比较类似,mEpiSC特异性的marker基因在hESCs中高表达,但是mESC特异性的marker基因表达量不高。

分析软件

  • clValid package (SOTA function)
  • Coding Potential Calculator (求保守性水平 \(\omega\) metric)
  • pvclust package
  • Cufflinks
  • Trinity (de novo transcriptome reconstruction)
  • PASA (eukaryotic genome annotation tool)
  • Cluster (gene expression pattern)
  • JavaTreeview (gene expression pattern)

单词本

英文 中文 英文 中文
preimplantation 胚胎植入前 maternal 母系
epiblast(EPI) 外胚层 in vitro 体外
blastomere 卵裂球 oocyte 卵母细胞
maternal-zygotic transition 母系-合子过渡期 segregation 分离
trophectoderm 滋养外胚层 fibroblast 成纤维细胞
triplet 三联体 orthologous 直系同源
bovine blastocyst 胚囊
facilitated 便利 pluripotency 多能性
derivation 起源,衍生 metaphase 中期
zygote 受精卵 morula 桑椹胚
Late blastocyst 晚期囊胚 lineage 谱系
morphological 形态学 stringent 严格的
criteria 标准 germ 生殖
gamete 配子 phosphorylation 磷酸化
metabolism 新陈代谢 ribonucleoprotein 核糖核蛋白
biogenesis 合成 ribosome 核糖体
primitive endoderm 原始内胚层 maintenance 维持
inherite 遗传 drastically 彻底
hatch 孵化 subtly 巧妙地
precursor 先导 cytokine 细胞因子
cryopreservation 冷冻保存 pave
dissect 解剖 reproductive 生殖
lysate 裂解液 deoxynucleotidyl transferase 脱氧核苷酸转移酶
culture 培养 immunostain 免疫染色
karyotype 核型 teratoma 畸胎瘤
heteroscedasticity 异方差性 passage 传代

入夏后,由于笔记本电脑太老,散热性能差,每次开机10分钟后就热得支撑不住,经常罢工,所有project更新减缓。


Authorea是个挺有意思的网站,目的是为了让科学家更好的协同写作,支持GIT/IPYTHON,写作方式支持LATEX/Markdown。感觉有点像Github。注册后可以免费建立无数篇公开文档,和1篇私有文档。需要更多的私有文档,需要购买收费服务。文档还支持导出成pdf, word(rtf), LaTeX等多种格式。在网页文章中有批注功能,这让协同写作越来越方便了。

那么现在问题来了,有多少人的协同写作文档是可以在写作时就公开的?其实推广还是有一些问题存在的。

持续关注中,貌似用这个来合作记录课堂笔记比较好。