我去年做了2个Jekyll的博客模版,然后放在github上,选择了MIT license作为授权许可协议。 这个协议的特点是只保留我的版权,其他东西可以随意修改,再发布。 最近我发现,在使用模版的用户中,一些用户在修改后,把我的License也修改没了,连我的版权信息都抹去了。 我不在意是否在博客的页面下方有对于这个模版的引用地址(一般人都会保留原repository的引用地址,非常感谢这些用户),但是在github的repository里,你连License都修改了,是不是也太不要脸了?

以后见到一个我就在这里加一个github repository的地址,曝(Pu4)光一下这些人。这篇文章也会在博客模版的首页永远置顶。

[20150703更新] 用户已经修正License的,会剔除出曝光列表。

MIT license

http://choosealicense.com/licenses/mit/

The MIT License (MIT)

Copyright (c) 2014 Lijia Yu

Permission is hereby granted, free of charge, to any person obtaining a copy
of this software and associated documentation files (the "Software"), to deal
in the Software without restriction, including without limitation the rights
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
copies of the Software, and to permit persons to whom the Software is
furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE.

[20150709更新]

我在freshman21的博客里注明了在fork并修改这套模版后正确的License修改方式。 感谢用户们的支持,这次发现的问题都发生在国内用户中,所以有了这篇博客,我之后私下联系了我看到有问题的repo作者,他们都很礼貌的将Licese修改正确。 也感谢最开始,被我挂到网站上的那位用户,主动联系了我解决问题。 另外,我自己也要总结,没联系对方时,最好不要在网站上挂出来,当时一激动就直接挂了最开始找到一个,给对方也造成了一定的麻烦。 在此感谢所有用户的理解与支持。


推荐一篇zhihu上的文章《青铜时代:中本聪之惑》 讲述两人利用比特币平台之间的差价做套利的故事。

我自己知道比特币是在大学初期,当时自己的台式机器没有挖掘的能力,下载了比特币钱包,挂了一晚上都没有结果,之后就不了了之,钱包也删除了。然后比特币火起来的时候关注了一些山寨币,由于山寨币毕竟是山寨货没有什么投资价值,遂放弃关注这个方面。

最近看了看股市新闻,发现一个金融产品若出现长时间(至少两个月)利好。一定要尽早抓住投资,做一到三个月的短期交易,回报有时候会很大。


前一段时间有幸聆听了杨晓飞做的关于DNA甲基化相关的报告,现在简要回顾一下他们这篇文章的内容。另外这个工作的参与者里还有Xiaojian Shao老师,不过他挂名的工作单位实在是太奇怪了_-_。另外这篇文章是收费的,所有Supplementary无法下载-_-'

Systematic DNA methylation analysis of multiple cell lines reveals common and specific patterns within and across tissues of origin

这个工作主要是用定义并设计了一个方法找出DNA甲基化相关位置(local clusters of CpG sites),并在获得的DNA甲基化区段内进行多组织间的分析。

整个工作分为三个层次:

  • 找寻DNA甲基化在各个组织间的common pattern
    • 在基因组上的富集情况
    • 功能
    • 同(基因)表达的相关性
  • 细胞谱系特异性的pattern
    • 甲基化pattern
    • 在基因组上的富集情况
    • motif的富集情况
  • 细胞系特异性的pattern
    • 甲基化pattern
    • 功能的富集
    • 同(基因)表达的相关性

1.local clusters of CpG sites(LCCS)的找寻方法

本文采用的ENCODE项目reduced representation bisulfite sequencing (RRBS)的甲基化数据,一共用了54正常细胞系。

根据我自己对数据的理解,由于RRBS数据只是在一些位点测定了DNA的甲基化情况,而不是全基因组测定DNA甲基化情况,所以位点比较稀疏。

local clusters of CpG sites的就是把DNA甲基化位点密集的区域变成一个unit,对DNA甲基化位点进行聚类。具体的聚类方法如下(意思差不多,这个是我听讲座后自己总结的):

  1. 找到在整个基因组上距离最近的两个甲基化位点,将这两个点归为一个unit
  2. 从这两个点的上下游找寻距离这个unit最近的一个甲基化位点,把这第三个甲基化位点放入unit里
  3. 重复第二个步骤,直到这个unit的长度达到500bp(不超过500bp),这样就选出了一个LCCS
  4. 接下来再次进行第一到第三步骤,直至所有的甲基化位点都成为某个LCCS的一部分

最终在所有用于研究的细胞系中,他们找到了35276个LCCSs,LCCSs的长度中位数是79bp,每个LCCS上有7个CpG。对于大多数LCCSs(21417,60.7%)甲基化比例(percent methylated value,简称为PM)的方差小于5。

2.加权LCCS共甲基化网络的分析展示出不同生物(过程)相关的共甲基化模块

下面所有分析中没有对DNA甲基化数据做样本间的normalization,当时演讲人说ENCODE网站上有信息说这些数据可以相互比较。

本文中将LCCSs进行聚类,发现了7个group(module 模块),这7个模块中5个是高甲基化的,2个是低甲基化的。高甲基化的区域多在非编码,基因体,open sea1,低甲基化的区域多为启动子, CpG islands(CGI)在open sea区域很少见。接下来,就是对高甲基化和低甲基化区域(各个模块)的分析(关于功能,以及同基因表达的相关性),没有什么有意思的发现,就不赘述了。

在什么地方用到了网络? 为了度量不同细胞系之间的LCCS是否相似,文中采用加权LCCS共甲基化网络,找出细胞系之间相似的甲基化LCCS模块。

3.细胞谱系特异性的pattern分析

首先对LCCSs根据细胞谱系进行聚类(血液、肝脏、肺、心脏等),发现细胞谱系特异性的DNA甲基化多富集在基因体 和非CpG岛区域。之后就找了在低甲基化的LCCSs区域内的motif,发现了一些同转录调控相关的蛋白motif。最后找到了同细胞谱系特异性的LCCSs相关的一些基因,这些基因根据资料也的确是细胞谱系特异性表达。

4.细胞系特异性的pattern

本文中发现细胞特异性的LCCSs富集在不同的染色质状态(chromatin states),细胞系特异性的高甲基化LCCSs在weak transcriptional state富集,低甲基化的LCCSs富集在活跃的启动子和增强子区域。

分析软件

  • WGCNA package
  • HOMER

单词本

英文 中文 英文 中文
deplete 用尽,少有 intragenic 基因内
antagonism 对立,相克    

附注

CpG islands/shores/shelves/open sea


Single cell RNA seq profiling of human preimplantation embryos and embryonic stem cells

Nature Structural & Molecular Biology 20, 1131–1139 (2013) doi:10.1038/nsmb.2660

Received 18 July 2013 Accepted 05 August 2013 Published online 11 August 2013

http://www.nature.com/nsmb/journal/v20/n9/full/nsmb.2660.html

本文一共对胚胎以及胚胎干细胞系阶段的124个单细胞进行测序。分析了RNA表达情况,是关于单细胞RNA方面的一篇早期研究文章。

主要研究结论

1.不同细胞类型间的转录情况分析

本文研究的细胞类型包括卵母细胞,受精卵,2细胞卵裂球,4细胞卵裂球,8细胞卵裂球,桑椹胚,晚期囊胚,hESC细胞,传代10代后的hESC细胞。所有细胞经过了严格的形态学筛选。以往研究中已经确认在4细胞和8细胞阶段基因的表达情况会有极大的改变,该阶段是Maternal to zygotic transition (MZT) 期。 本文在单细胞中测得属于RefSeq基因列表里的11006个基因(占所有RefSeq基因的49%)以及RefSeq转录本列表中18002个转录本(占总体的48%)。对于受精卵胚胎细胞的表达水平(RPKM>0.1)进行了聚类分析以及主成份分析,分析发现8细胞阶段和桑椹胚阶段的的表达水平有些类似。在人类中MZT阶段主要是在8细胞时期,文中找到了2495个显著上调的基因(zygotic gene activation),上调基因的功能多富集在RNA新陈代谢,RNA剪接,核糖核蛋白复合物的生成,核糖体的产生中。

2.可变剪接的动态模式

文中分析的基因里有4822个基因至少产生了2个转录本。根据转录本特异性的外显子连接区域(junction)序列的唯一比对(uniquely mapping),有20%(总数4822)的基因产生了2个以上的转录本,最高达到7个转录本。在所研究的7个发育阶段中(卵母细胞,受精卵,2细胞卵裂球,4细胞卵裂球,8细胞卵裂球,桑椹胚,晚期囊胚)只有206个基因在每个阶段都有多转录本的表达,其他的基因的多转录本只在特定的几个阶段中能检测到。另外,至少66%的情况下,基因所表达的主要异构体(major isoform)别其他的异构体表达量高2倍。另外文中以forkhead box(FOX) transcriptional factor, FOXP1为例子,说明了一个ESC阶段特异性转录本异构体有一个外显子(exon 18b),这个异构体编码出的蛋白质与维持细胞多功能性相关,在体外胚胎干细胞中检测到的exon 18b是exon 18a的25倍。但是这幅图上(见下方),还展示了一个非特异性表达的外显子exon 19,图中可以看到这个外显子在PE(原始内胚层)时期没有表达量数据,这个究竟是为什么,文中没有给出解释。

fig3D

3.长非编码RNA(lncRNA)的表达情况

如果把所有的数据(124个细胞?)整合在一起分析,lncRNA的转录本拷贝数量均值是蛋白编码基因的十分之一(10%),同前人的数据结果较为一致。但是,如果对于每个单细胞进行分析,lncRNA的拷贝数量均值可以达到蛋白编码基因的40.5%。文章中只有在这里用到了拷贝数量(copy number)这个词组,我不知道这个是指普通意义上的DNA上的gene copy number还是表达量水平。

4.未知的蛋白编码转录本以及lncRNA

为了找寻未知的新转录本,文中,首先排除了在已知基因上下游10kb范围内找到的未知转录本,并认为这些潜在的未知转录本可能是已知基因的一部分。接下来,对在排除后的区域内找到的新转录本进行了分析,从转录本长度,保守性方面说明文中所找到的新转录本同已知的转录本很相似,并且也看到了一些转录本在7个发育阶段的表达水平有很大的差异,说明这些新找出的转录本参与到了胚胎的发育调控中。

5.hESCs和外胚层细胞的异同点(tracing pluripotency during the derivation of hESCs)

hESCs是从囊胚内团细胞(inner cell mass)的外胚层中分化来的,但是关于hESCs同外胚层细胞的异同点的全面分析却很少。本文分析了晚期囊胚阶段的30个细胞(分别属于桑椹胚滋养外胚层(mural TE),极滋养外胚层细胞(polar TE),外胚层以及原始内胚层),对已知RefSeq基因的表达情况进行聚类分析(在聚类中用到了bootstrap)。并对一些marker基因在外胚层、滋养外胚层、原始内胚层中的相对表达情况做了分析。之后又对hESCs细胞以及EPI细胞中的上下调的多功能性marker基因进行了分析,分析结果既有一致性,又有区别。说明hESCs细胞与EPI细胞的基因表达有区别。这种区别不仅体现在已知的基因中,对于文章找到的新转录本和lncRNA也存在着类似的区别。最后他们还分析了hESCs同小鼠胚胎干细胞之间的关系(mEpiSCs),分析发现hESCs同mEpiSCs比较类似,mEpiSC特异性的marker基因在hESCs中高表达,但是mESC特异性的marker基因表达量不高。

分析软件

  • clValid package (SOTA function)
  • Coding Potential Calculator (求保守性水平 \(\omega\) metric)
  • pvclust package
  • Cufflinks
  • Trinity (de novo transcriptome reconstruction)
  • PASA (eukaryotic genome annotation tool)
  • Cluster (gene expression pattern)
  • JavaTreeview (gene expression pattern)

单词本

英文 中文 英文 中文
preimplantation 胚胎植入前 maternal 母系
epiblast(EPI) 外胚层 in vitro 体外
blastomere 卵裂球 oocyte 卵母细胞
maternal-zygotic transition 母系-合子过渡期 segregation 分离
trophectoderm 滋养外胚层 fibroblast 成纤维细胞
triplet 三联体 orthologous 直系同源
bovine blastocyst 胚囊
facilitated 便利 pluripotency 多能性
derivation 起源,衍生 metaphase 中期
zygote 受精卵 morula 桑椹胚
Late blastocyst 晚期囊胚 lineage 谱系
morphological 形态学 stringent 严格的
criteria 标准 germ 生殖
gamete 配子 phosphorylation 磷酸化
metabolism 新陈代谢 ribonucleoprotein 核糖核蛋白
biogenesis 合成 ribosome 核糖体
primitive endoderm 原始内胚层 maintenance 维持
inherite 遗传 drastically 彻底
hatch 孵化 subtly 巧妙地
precursor 先导 cytokine 细胞因子
cryopreservation 冷冻保存 pave
dissect 解剖 reproductive 生殖
lysate 裂解液 deoxynucleotidyl transferase 脱氧核苷酸转移酶
culture 培养 immunostain 免疫染色
karyotype 核型 teratoma 畸胎瘤
heteroscedasticity 异方差性 passage 传代

入夏后,由于笔记本电脑太老,散热性能差,每次开机10分钟后就热得支撑不住,经常罢工,所有project更新减缓。