这篇文章比较偏,如果不是做肝癌研究的,会有很多不明白的地方,另外,对于组学数据的分析写得比较少。做的东西只是描述了一些表面现象,没有挖掘机理。

不是专门做肝癌及其组学数据分析,不建议看这篇文章。

文章的分析主要工作是由Zhao Yi老师组完成的。

上面是文章中的题目,这个题目太长了,我在网页链接里缩写了一个简略的题目(同文章中的题目不完全一致)。

Background

肝癌如何分类?

肝肿瘤分成多种,其中只有几种属癌肿性。最主要的分类法,是鉴定肿瘤属良性(害处相对较少)抑或恶性(可以由肝脏扩散至其他部位,故较为严重)。

良性肿瘤

血管瘤(Hemangioma)是最常见的良性肝肿瘤,是始于胎儿的肝脏异常血管生长。身体状况正常的人中,占10% 以上者肝脏有血管瘤。大部分有血管瘤的人均无任何征状,也不需治疗。但在较为罕见的情况下,血管瘤或会扩大并流血,如出现这情况便要进行手术割除。

肝腺瘤(Hepatic adenomas) 是良性的肝细胞肿瘤,大部分情况均无征状也不需治疗。但如果体积大,或会导致痛楚或失血,在这种情况下肿瘤便需割除。肝腺瘤较常见于女性。部分个案显示,避孕药或怀孕或是触发成因。

肝脏局部结节性增生(Focal nodular hyperplasia,简称FNH) 指数种细胞出现类似肿瘤的增长。虽然属良性,但结节性肿瘤与肝癌并不容易分辨。

恶性肿瘤

成人最常见的原发性肝癌(始于肝脏的癌症)是肝细胞癌(hepatocellular carcinoma,简称HCC),即肝细胞出现癌症。这类癌症有数种增长模式。有些在开始时是单一个肿瘤,然后渐渐增大。到较后期时,癌细胞便会蔓延至肝脏其他部位。

肝癌亦可以在肝脏多个部位增长,并演变为多个肿瘤。这种情况在肝硬化病人身上最普遍。

另一种肝癌是始于胆小管的胆管癌(cholangiocarcinoma)。胆小管是输送胆汁至胆囊的管道。

然而,大部分的肝癌均非始于肝脏,而是由身体其他部位开始的癌症,扩散至肝脏。这类癌症是以癌症开始的部位(原发部位)命名,属于继发性肝癌或转移性癌症。譬如,始于肺部的癌症扩散至肝脏,便称为扩散至肝脏的转移性肺癌。继发性肝癌较原发性肝癌高出 30 倍。

Data information

本文对两个病人的外周血,癌旁,第一位病人的原发灶,卫星灶,门静脉癌拴,第二位病人的左肝区和右肝区的进行了基因组和转录组的测序。第一位病人有肝硬化,年龄是四五十岁,第二位病人没有刚硬化,年龄是七十多岁。第一位病人的肝癌属于低分化,第二位病人的肝癌属于高分化,低分化的肝癌细胞恶性程度高。

Question 1

在本文中研究的是原发性肝癌——肝细胞癌,这种癌症在国内,有很大一部分是由于乙肝、丙肝导致的。原发性肝癌,会有多个病灶,那么这些病灶是源于肿瘤细胞的某个单克隆,还是多克隆?

这个问题可以通过对乙肝病毒同宿主的DNA整合方面来进行研究。

  1. 如果,对于一个病人,在不同的肝癌组织中,我们找到的乙肝病毒插入序列都在同一个位置,那么很有可能,这位病人的不同部位的肝癌细胞可能属于同一个单克隆。
  2. 反之,乙肝病毒在不同肿瘤组织中,插入到了不同的位置,那么这些肝癌细胞肯定不属于同一个单克隆,也就是说这个病人的肝癌细胞起源具有多克隆性。

根据对乙肝病毒基因整合的研究,文中的第一位病人属于情况1,第二位病人属于情况2。我觉得这只是一种可能性,没准第一个病人,乙肝病毒虽然在不同位点的癌组织中整合在基因组的同一个位置,但是这些癌组织也有可能是在不同或相同时间分别产生的。只研究乙肝病毒的整合情况,能否完善的说明单克隆和多克隆的问题?

Question 2

文章分别看了两位病人的SNV, CNV, structural variation的情况,并做了系统生发树。

本文中认为,第一位病人的肝癌演化路线是normal -> primary cancer -> portal vein tumor -> satellite intrahepatic metastases,第二个病人的肝癌两个病灶更有可能是同时出现的。

但是,我没有理解这个图,从图中看,第二位病人的肝癌演化路线,更像是normal -> left part cancer -> right part cancer

Question 3

对于转录组的分析,要结合基因组,在基因组上有大量CNV的区域的基因,其表达量同copy number数量正相关。

在转录组部分的研究中,没有什么实质的内容,对于高表达和低表达的基因,做了功能富集图,用的软件是Cytoscape plugin Enrichment Map。我没有理解图里面的小点(基因集合)里的基因有哪些。

Question 4

最后,根据基因表达量的差异和KEGG/BioCarta通路分析,文章中找到了21个基因,这些基因属于细胞周期,p53信号,组氨酸代谢等通路中。 之后又在174个病例中进行了验证,其中6个基因存在普遍的(癌症/正常)差异性,之后他们对这些基因和病人的临床数据整合(乙肝表面抗原,谷丙转氨酶,肿瘤分级等),进行了分析。 文章中发现TTK基因的高表达和低表达,同病人的无复发存活率、总存活率相关性高,TTK基因高表达的病人在肝癌手术后还需要尽早介入治疗

分析软件

  • Circos
  • Cytoscape (plugin Enrichment Map)
  • SPSS

还有转录组常用分析软件,具体需要看supplementary。

单词本

英文 中文 英文 中文
prognostic 预后 hepatocellular carcinoma 肝细胞癌
stratification 分层 differentiation 分化
multifocal 多灶性 intrahepatic 肝内
metastasis 转移 lesion 病灶
specimen 标本 integration 整合
elucidate 阐述 clinicopathological 临床病理
mitotic 有丝分裂 synchronously 同步
hepatectomy 肝切除 recurrence-free survival(RFS) 无复发生存率
overall survival 总生存率 cirrhosis 肝硬化
resection 切除 peripheral blood 外周血
monoclonal 单克隆 telomerase 端粒酶
substitution 突变 translocation 易位
aneuploidy 非整倍体 putative 假设
portal vein 静脉
tumor thrombus 癌拴 inflammatory 炎症
coagulation 凝结(血) coenzyme 辅酶
oxidative 氧化 histidine 组氨酸
mediate 介导 spindle 放垂体
HBsAg 乙肝表面抗原 ALT 谷丙转氨酶
albumin 白蛋白 postsurgical 术后
biopsy 活检 nodule 结节
catastrophic 灾难性的 albeit 尽管
epithelial 上皮 prostate 前列腺
pancreatic 胰腺 interventional 介入
surveillance 监控 hepatectomy 肝切除
intriguingly 有趣的是 prospective 预期前瞻性
expedite 促进    

我去年做了2个Jekyll的博客模版,然后放在github上,选择了MIT license作为授权许可协议。 这个协议的特点是只保留我的版权,其他东西可以随意修改,再发布。 最近我发现,在使用模版的用户中,一些用户在修改后,把我的License也修改没了,连我的版权信息都抹去了。 我不在意是否在博客的页面下方有对于这个模版的引用地址(一般人都会保留原repository的引用地址,非常感谢这些用户),但是在github的repository里,你连License都修改了,是不是也太不要脸了?

以后见到一个我就在这里加一个github repository的地址,曝(Pu4)光一下这些人。这篇文章也会在博客模版的首页永远置顶。

[20150703更新] 用户已经修正License的,会剔除出曝光列表。

MIT license

http://choosealicense.com/licenses/mit/

The MIT License (MIT)

Copyright (c) 2014 Lijia Yu

Permission is hereby granted, free of charge, to any person obtaining a copy
of this software and associated documentation files (the "Software"), to deal
in the Software without restriction, including without limitation the rights
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
copies of the Software, and to permit persons to whom the Software is
furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE.

[20150709更新]

我在freshman21的博客里注明了在fork并修改这套模版后正确的License修改方式。 感谢用户们的支持,这次发现的问题都发生在国内用户中,所以有了这篇博客,我之后私下联系了我看到有问题的repo作者,他们都很礼貌的将Licese修改正确。 也感谢最开始,被我挂到网站上的那位用户,主动联系了我解决问题。 另外,我自己也要总结,没联系对方时,最好不要在网站上挂出来,当时一激动就直接挂了最开始找到一个,给对方也造成了一定的麻烦。 在此感谢所有用户的理解与支持。


推荐一篇zhihu上的文章《青铜时代:中本聪之惑》 讲述两人利用比特币平台之间的差价做套利的故事。

我自己知道比特币是在大学初期,当时自己的台式机器没有挖掘的能力,下载了比特币钱包,挂了一晚上都没有结果,之后就不了了之,钱包也删除了。然后比特币火起来的时候关注了一些山寨币,由于山寨币毕竟是山寨货没有什么投资价值,遂放弃关注这个方面。

最近看了看股市新闻,发现一个金融产品若出现长时间(至少两个月)利好。一定要尽早抓住投资,做一到三个月的短期交易,回报有时候会很大。


前一段时间有幸聆听了杨晓飞做的关于DNA甲基化相关的报告,现在简要回顾一下他们这篇文章的内容。另外这个工作的参与者里还有Xiaojian Shao老师,不过他挂名的工作单位实在是太奇怪了_-_。另外这篇文章是收费的,所有Supplementary无法下载-_-'

Systematic DNA methylation analysis of multiple cell lines reveals common and specific patterns within and across tissues of origin

这个工作主要是用定义并设计了一个方法找出DNA甲基化相关位置(local clusters of CpG sites),并在获得的DNA甲基化区段内进行多组织间的分析。

整个工作分为三个层次:

  • 找寻DNA甲基化在各个组织间的common pattern
    • 在基因组上的富集情况
    • 功能
    • 同(基因)表达的相关性
  • 细胞谱系特异性的pattern
    • 甲基化pattern
    • 在基因组上的富集情况
    • motif的富集情况
  • 细胞系特异性的pattern
    • 甲基化pattern
    • 功能的富集
    • 同(基因)表达的相关性

1.local clusters of CpG sites(LCCS)的找寻方法

本文采用的ENCODE项目reduced representation bisulfite sequencing (RRBS)的甲基化数据,一共用了54正常细胞系。

根据我自己对数据的理解,由于RRBS数据只是在一些位点测定了DNA的甲基化情况,而不是全基因组测定DNA甲基化情况,所以位点比较稀疏。

local clusters of CpG sites的就是把DNA甲基化位点密集的区域变成一个unit,对DNA甲基化位点进行聚类。具体的聚类方法如下(意思差不多,这个是我听讲座后自己总结的):

  1. 找到在整个基因组上距离最近的两个甲基化位点,将这两个点归为一个unit
  2. 从这两个点的上下游找寻距离这个unit最近的一个甲基化位点,把这第三个甲基化位点放入unit里
  3. 重复第二个步骤,直到这个unit的长度达到500bp(不超过500bp),这样就选出了一个LCCS
  4. 接下来再次进行第一到第三步骤,直至所有的甲基化位点都成为某个LCCS的一部分

最终在所有用于研究的细胞系中,他们找到了35276个LCCSs,LCCSs的长度中位数是79bp,每个LCCS上有7个CpG。对于大多数LCCSs(21417,60.7%)甲基化比例(percent methylated value,简称为PM)的方差小于5。

2.加权LCCS共甲基化网络的分析展示出不同生物(过程)相关的共甲基化模块

下面所有分析中没有对DNA甲基化数据做样本间的normalization,当时演讲人说ENCODE网站上有信息说这些数据可以相互比较。

本文中将LCCSs进行聚类,发现了7个group(module 模块),这7个模块中5个是高甲基化的,2个是低甲基化的。高甲基化的区域多在非编码,基因体,open sea1,低甲基化的区域多为启动子, CpG islands(CGI)在open sea区域很少见。接下来,就是对高甲基化和低甲基化区域(各个模块)的分析(关于功能,以及同基因表达的相关性),没有什么有意思的发现,就不赘述了。

在什么地方用到了网络? 为了度量不同细胞系之间的LCCS是否相似,文中采用加权LCCS共甲基化网络,找出细胞系之间相似的甲基化LCCS模块。

3.细胞谱系特异性的pattern分析

首先对LCCSs根据细胞谱系进行聚类(血液、肝脏、肺、心脏等),发现细胞谱系特异性的DNA甲基化多富集在基因体 和非CpG岛区域。之后就找了在低甲基化的LCCSs区域内的motif,发现了一些同转录调控相关的蛋白motif。最后找到了同细胞谱系特异性的LCCSs相关的一些基因,这些基因根据资料也的确是细胞谱系特异性表达。

4.细胞系特异性的pattern

本文中发现细胞特异性的LCCSs富集在不同的染色质状态(chromatin states),细胞系特异性的高甲基化LCCSs在weak transcriptional state富集,低甲基化的LCCSs富集在活跃的启动子和增强子区域。

分析软件

  • WGCNA package
  • HOMER

单词本

英文 中文 英文 中文
deplete 用尽,少有 intragenic 基因内
antagonism 对立,相克    

附注

CpG islands/shores/shelves/open sea


Single cell RNA seq profiling of human preimplantation embryos and embryonic stem cells

Nature Structural & Molecular Biology 20, 1131–1139 (2013) doi:10.1038/nsmb.2660

Received 18 July 2013 Accepted 05 August 2013 Published online 11 August 2013

http://www.nature.com/nsmb/journal/v20/n9/full/nsmb.2660.html

本文一共对胚胎以及胚胎干细胞系阶段的124个单细胞进行测序。分析了RNA表达情况,是关于单细胞RNA方面的一篇早期研究文章。

主要研究结论

1.不同细胞类型间的转录情况分析

本文研究的细胞类型包括卵母细胞,受精卵,2细胞卵裂球,4细胞卵裂球,8细胞卵裂球,桑椹胚,晚期囊胚,hESC细胞,传代10代后的hESC细胞。所有细胞经过了严格的形态学筛选。以往研究中已经确认在4细胞和8细胞阶段基因的表达情况会有极大的改变,该阶段是Maternal to zygotic transition (MZT) 期。 本文在单细胞中测得属于RefSeq基因列表里的11006个基因(占所有RefSeq基因的49%)以及RefSeq转录本列表中18002个转录本(占总体的48%)。对于受精卵胚胎细胞的表达水平(RPKM>0.1)进行了聚类分析以及主成份分析,分析发现8细胞阶段和桑椹胚阶段的的表达水平有些类似。在人类中MZT阶段主要是在8细胞时期,文中找到了2495个显著上调的基因(zygotic gene activation),上调基因的功能多富集在RNA新陈代谢,RNA剪接,核糖核蛋白复合物的生成,核糖体的产生中。

2.可变剪接的动态模式

文中分析的基因里有4822个基因至少产生了2个转录本。根据转录本特异性的外显子连接区域(junction)序列的唯一比对(uniquely mapping),有20%(总数4822)的基因产生了2个以上的转录本,最高达到7个转录本。在所研究的7个发育阶段中(卵母细胞,受精卵,2细胞卵裂球,4细胞卵裂球,8细胞卵裂球,桑椹胚,晚期囊胚)只有206个基因在每个阶段都有多转录本的表达,其他的基因的多转录本只在特定的几个阶段中能检测到。另外,至少66%的情况下,基因所表达的主要异构体(major isoform)别其他的异构体表达量高2倍。另外文中以forkhead box(FOX) transcriptional factor, FOXP1为例子,说明了一个ESC阶段特异性转录本异构体有一个外显子(exon 18b),这个异构体编码出的蛋白质与维持细胞多功能性相关,在体外胚胎干细胞中检测到的exon 18b是exon 18a的25倍。但是这幅图上(见下方),还展示了一个非特异性表达的外显子exon 19,图中可以看到这个外显子在PE(原始内胚层)时期没有表达量数据,这个究竟是为什么,文中没有给出解释。

fig3D

3.长非编码RNA(lncRNA)的表达情况

如果把所有的数据(124个细胞?)整合在一起分析,lncRNA的转录本拷贝数量均值是蛋白编码基因的十分之一(10%),同前人的数据结果较为一致。但是,如果对于每个单细胞进行分析,lncRNA的拷贝数量均值可以达到蛋白编码基因的40.5%。文章中只有在这里用到了拷贝数量(copy number)这个词组,我不知道这个是指普通意义上的DNA上的gene copy number还是表达量水平。

4.未知的蛋白编码转录本以及lncRNA

为了找寻未知的新转录本,文中,首先排除了在已知基因上下游10kb范围内找到的未知转录本,并认为这些潜在的未知转录本可能是已知基因的一部分。接下来,对在排除后的区域内找到的新转录本进行了分析,从转录本长度,保守性方面说明文中所找到的新转录本同已知的转录本很相似,并且也看到了一些转录本在7个发育阶段的表达水平有很大的差异,说明这些新找出的转录本参与到了胚胎的发育调控中。

5.hESCs和外胚层细胞的异同点(tracing pluripotency during the derivation of hESCs)

hESCs是从囊胚内团细胞(inner cell mass)的外胚层中分化来的,但是关于hESCs同外胚层细胞的异同点的全面分析却很少。本文分析了晚期囊胚阶段的30个细胞(分别属于桑椹胚滋养外胚层(mural TE),极滋养外胚层细胞(polar TE),外胚层以及原始内胚层),对已知RefSeq基因的表达情况进行聚类分析(在聚类中用到了bootstrap)。并对一些marker基因在外胚层、滋养外胚层、原始内胚层中的相对表达情况做了分析。之后又对hESCs细胞以及EPI细胞中的上下调的多功能性marker基因进行了分析,分析结果既有一致性,又有区别。说明hESCs细胞与EPI细胞的基因表达有区别。这种区别不仅体现在已知的基因中,对于文章找到的新转录本和lncRNA也存在着类似的区别。最后他们还分析了hESCs同小鼠胚胎干细胞之间的关系(mEpiSCs),分析发现hESCs同mEpiSCs比较类似,mEpiSC特异性的marker基因在hESCs中高表达,但是mESC特异性的marker基因表达量不高。

分析软件

  • clValid package (SOTA function)
  • Coding Potential Calculator (求保守性水平 \(\omega\) metric)
  • pvclust package
  • Cufflinks
  • Trinity (de novo transcriptome reconstruction)
  • PASA (eukaryotic genome annotation tool)
  • Cluster (gene expression pattern)
  • JavaTreeview (gene expression pattern)

单词本

英文 中文 英文 中文
preimplantation 胚胎植入前 maternal 母系
epiblast(EPI) 外胚层 in vitro 体外
blastomere 卵裂球 oocyte 卵母细胞
maternal-zygotic transition 母系-合子过渡期 segregation 分离
trophectoderm 滋养外胚层 fibroblast 成纤维细胞
triplet 三联体 orthologous 直系同源
bovine blastocyst 胚囊
facilitated 便利 pluripotency 多能性
derivation 起源,衍生 metaphase 中期
zygote 受精卵 morula 桑椹胚
Late blastocyst 晚期囊胚 lineage 谱系
morphological 形态学 stringent 严格的
criteria 标准 germ 生殖
gamete 配子 phosphorylation 磷酸化
metabolism 新陈代谢 ribonucleoprotein 核糖核蛋白
biogenesis 合成 ribosome 核糖体
primitive endoderm 原始内胚层 maintenance 维持
inherite 遗传 drastically 彻底
hatch 孵化 subtly 巧妙地
precursor 先导 cytokine 细胞因子
cryopreservation 冷冻保存 pave
dissect 解剖 reproductive 生殖
lysate 裂解液 deoxynucleotidyl transferase 脱氧核苷酸转移酶
culture 培养 immunostain 免疫染色
karyotype 核型 teratoma 畸胎瘤
heteroscedasticity 异方差性 passage 传代