标题是哗众取宠,Eric Lander在新英格兰医学上发表了一篇perspective(前景,观点), 总结了基因组研究领域的新内容(CRISPR,基因编辑)和挑战,目前我们应该关注的问题,用谨慎而发展的眼光看待基因组编辑。

原文标题是Brave New Genome (美好的新基因组),我估计这个标题是类比于brave new world(美丽新世界)。

目前我们遇到的新挑战是开发一个可行的度量体系来检测人类生殖细胞编辑(human germline editing,说生殖细胞也不太顺,反正就是可遗传的细胞DNA的编辑)。

在此Lander认为应该关注四个关键问题讨论。

1. DNA编辑技术

目前的编辑技术还没成熟到可以自由的编辑指定基因,总会有不完全编辑、不精确编辑和脱靶的现象出现。

2. 这种编辑是不是利大于弊

目前人们想到的对于可遗传细胞的编辑可产生的一个主要贡献是毁灭单基因遗传病,例如亨廷顿病。 对于这些遗传病最有必要的不是基因组剪接,而是常规的遗传学筛查,使得携带这些遗传病的夫妇可以了解自己基因中潜在的风险并且愿意在生育前做产前遗传病诊断。

另外,编辑基因可能会使后代不得某种病,单也没准会加大他们患另外一些疾病的概率。这是应为,基因在生物体内主导的作用不仅仅同某一种疾病相关,更多是同很多疾病相关。 一个基因可能正向调控疾病A,反向调控疾病B。

3. 谁能决定是否进行基因编辑

这涉及到伦理问题,假设父母为了后代的健康、智力或体力因素,做了基因编辑,但是后代出生后却不同意父母的做法,这样该怎么办?

4. 对与错,今后该如何

科学家一般都不情愿去回答一些伦理问题,但是我们必须对这些问题负责并正确的对待这些问题。我们如何生活在一个存在基因编辑的社会,基因编辑会不会改变我们的世界? 如何看待进行过基因编辑的的后代(他们是不是人工产品)?会不会出现基因编辑的流行趋势(大家都喜欢做某项基因编辑 ,变得更漂亮更聪明之类的)?携带最优秀的基因组的人会不会有更大权力?

如果我们跨越了这些界线,很难看到挽回的方法。

现在各国对于基因编辑都还是非常保守的态度。

但Lander在最后又说,我们很容易就可以推翻这种保守观点,前提是,我们都有很好的科学知识,在道德上足够明智,并且我们的研究带来了引人入胜、不可抗拒的结果。

十年前人们才第一次读到人类的基因组,现在我们需要小心而谨慎的前进(改写基因组)。

读完文章发现同我想象的内容完全不同,Eric Lander太会说话了,严谨而不失希望。


He Jiankui老师组在去年年初总结了一下目前单细胞基因组学、转录组学分析中的生物信息学问题。 说白了,就是数据的去噪,如何在实验以及分析方法上进行改进。 做单细胞数据分析的人可以先从这篇文章入手,了解单细胞测序存在的问题,并在分析自己的数据时带着这些问题去研究,看看如何检测判断,或者发现、发明新的方法处理。

从单细胞中能看到什么

我们想知道毗连的细胞在遗传和表达层面有什么差异。在人类胚胎干细胞的不同发育阶段细胞之间有什么不同。这些都是单细胞的异质性情况。

现在什么研究中会用到单细胞测序

  1. 人类胚胎干细胞分化特点
  2. 稀有的转录本分析
  3. 肿瘤CTC细胞
  4. 肿瘤异质性和微进化
  5. 在不好培养的微生物方面研究中

单细胞技术集中的两个问题

  1. genome coverage低
  2. 扩增有偏好性

第一部分:单细胞DNA测序

Allele dropout

测序数据在基因组覆盖率低会造成SNP脱扣(SNP Dropout)。

在某些文献中MDA的脱扣率高达65%[1]

SNP假阳性

MALBAC假阳率比MDA高。

找寻SNP的算法需要做到什么

  1. 需要将SNP和扩增错误分开
  2. 能在低覆盖率的数据中找寻SNP

CNV的扩增偏差

在单细胞CNV研究中要适当扩大bin的大小,这样可以减少mapping偏差带来计算不准确(用reads count来算CNV的时候)。

计算CNV的算法要注意什么

MDA方法在计算CNV时,会有序列重复问题,在染色体终端也有问题,GC高的地方也有偏差。(MDA-induced copy number biases were reported to associate with sequence repeats and proximity to chromosome ends, increased GC content and annotated CNVs)

对扩增产物的pairewise comparison可以帮助减少假的CNV。

第二部分: 单细胞RNA测序

可以用来研究CTC表达量。

RSEM这个软件可以计算expression level of TPM(transcripts per million)

在单细胞全转录本扩增时会产生的问题有:

  1. 扩增无法得道完整的cDNA片段
  2. 转录本的扩增效率不一致
  3. 低表达量的转录本难以被检测到

文章中还说道FPKM/RPKM没有考虑转录本间的偏差,所以不适合用在单细胞的计算中。(我没看明白这是为什么

对于单细胞转录本表达情况的定量分析,文章中提出了两点建议:由于在3’和5’端测序质量不好,所以在做标准化时不要根据转录本的长度计算而是根据覆盖度范围内的长度进行计算;用一些方法(机器学习之类的)研究扩增偏差和正常情况的区别,开发新的工具来减少计算时的扩增偏差。

第三部分:单细胞能研究哪些问题

说白了,还是开头说的那些内容,一个是肿瘤演化谱系,另一个是干细胞发育。


硬件和软件的兼容性太差,系统自动升级后,竟然不能用了,反复在开机界面重启。有钱别用它。


这篇文章比较偏,如果不是做肝癌研究的,会有很多不明白的地方,另外,对于组学数据的分析写得比较少。做的东西只是描述了一些表面现象,没有挖掘机理。

不是专门做肝癌及其组学数据分析,不建议看这篇文章。

文章的分析主要工作是由Zhao Yi老师组完成的。

上面是文章中的题目,这个题目太长了,我在网页链接里缩写了一个简略的题目(同文章中的题目不完全一致)。

Background

肝癌如何分类?

肝肿瘤分成多种,其中只有几种属癌肿性。最主要的分类法,是鉴定肿瘤属良性(害处相对较少)抑或恶性(可以由肝脏扩散至其他部位,故较为严重)。

良性肿瘤

血管瘤(Hemangioma)是最常见的良性肝肿瘤,是始于胎儿的肝脏异常血管生长。身体状况正常的人中,占10% 以上者肝脏有血管瘤。大部分有血管瘤的人均无任何征状,也不需治疗。但在较为罕见的情况下,血管瘤或会扩大并流血,如出现这情况便要进行手术割除。

肝腺瘤(Hepatic adenomas) 是良性的肝细胞肿瘤,大部分情况均无征状也不需治疗。但如果体积大,或会导致痛楚或失血,在这种情况下肿瘤便需割除。肝腺瘤较常见于女性。部分个案显示,避孕药或怀孕或是触发成因。

肝脏局部结节性增生(Focal nodular hyperplasia,简称FNH) 指数种细胞出现类似肿瘤的增长。虽然属良性,但结节性肿瘤与肝癌并不容易分辨。

恶性肿瘤

成人最常见的原发性肝癌(始于肝脏的癌症)是肝细胞癌(hepatocellular carcinoma,简称HCC),即肝细胞出现癌症。这类癌症有数种增长模式。有些在开始时是单一个肿瘤,然后渐渐增大。到较后期时,癌细胞便会蔓延至肝脏其他部位。

肝癌亦可以在肝脏多个部位增长,并演变为多个肿瘤。这种情况在肝硬化病人身上最普遍。

另一种肝癌是始于胆小管的胆管癌(cholangiocarcinoma)。胆小管是输送胆汁至胆囊的管道。

然而,大部分的肝癌均非始于肝脏,而是由身体其他部位开始的癌症,扩散至肝脏。这类癌症是以癌症开始的部位(原发部位)命名,属于继发性肝癌或转移性癌症。譬如,始于肺部的癌症扩散至肝脏,便称为扩散至肝脏的转移性肺癌。继发性肝癌较原发性肝癌高出 30 倍。

Data information

本文对两个病人的外周血,癌旁,第一位病人的原发灶,卫星灶,门静脉癌拴,第二位病人的左肝区和右肝区的进行了基因组和转录组的测序。第一位病人有肝硬化,年龄是四五十岁,第二位病人没有刚硬化,年龄是七十多岁。第一位病人的肝癌属于低分化,第二位病人的肝癌属于高分化,低分化的肝癌细胞恶性程度高。

Question 1

在本文中研究的是原发性肝癌——肝细胞癌,这种癌症在国内,有很大一部分是由于乙肝、丙肝导致的。原发性肝癌,会有多个病灶,那么这些病灶是源于肿瘤细胞的某个单克隆,还是多克隆?

这个问题可以通过对乙肝病毒同宿主的DNA整合方面来进行研究。

  1. 如果,对于一个病人,在不同的肝癌组织中,我们找到的乙肝病毒插入序列都在同一个位置,那么很有可能,这位病人的不同部位的肝癌细胞可能属于同一个单克隆。
  2. 反之,乙肝病毒在不同肿瘤组织中,插入到了不同的位置,那么这些肝癌细胞肯定不属于同一个单克隆,也就是说这个病人的肝癌细胞起源具有多克隆性。

根据对乙肝病毒基因整合的研究,文中的第一位病人属于情况1,第二位病人属于情况2。我觉得这只是一种可能性,没准第一个病人,乙肝病毒虽然在不同位点的癌组织中整合在基因组的同一个位置,但是这些癌组织也有可能是在不同或相同时间分别产生的。只研究乙肝病毒的整合情况,能否完善的说明单克隆和多克隆的问题?

Question 2

文章分别看了两位病人的SNV, CNV, structural variation的情况,并做了系统生发树。

本文中认为,第一位病人的肝癌演化路线是normal -> primary cancer -> portal vein tumor -> satellite intrahepatic metastases,第二个病人的肝癌两个病灶更有可能是同时出现的。

但是,我没有理解这个图,从图中看,第二位病人的肝癌演化路线,更像是normal -> left part cancer -> right part cancer

Question 3

对于转录组的分析,要结合基因组,在基因组上有大量CNV的区域的基因,其表达量同copy number数量正相关。

在转录组部分的研究中,没有什么实质的内容,对于高表达和低表达的基因,做了功能富集图,用的软件是Cytoscape plugin Enrichment Map。我没有理解图里面的小点(基因集合)里的基因有哪些。

Question 4

最后,根据基因表达量的差异和KEGG/BioCarta通路分析,文章中找到了21个基因,这些基因属于细胞周期,p53信号,组氨酸代谢等通路中。 之后又在174个病例中进行了验证,其中6个基因存在普遍的(癌症/正常)差异性,之后他们对这些基因和病人的临床数据整合(乙肝表面抗原,谷丙转氨酶,肿瘤分级等),进行了分析。 文章中发现TTK基因的高表达和低表达,同病人的无复发存活率、总存活率相关性高,TTK基因高表达的病人在肝癌手术后还需要尽早介入治疗

分析软件

  • Circos
  • Cytoscape (plugin Enrichment Map)
  • SPSS

还有转录组常用分析软件,具体需要看supplementary。

单词本

英文 中文 英文 中文
prognostic 预后 hepatocellular carcinoma 肝细胞癌
stratification 分层 differentiation 分化
multifocal 多灶性 intrahepatic 肝内
metastasis 转移 lesion 病灶
specimen 标本 integration 整合
elucidate 阐述 clinicopathological 临床病理
mitotic 有丝分裂 synchronously 同步
hepatectomy 肝切除 recurrence-free survival(RFS) 无复发生存率
overall survival 总生存率 cirrhosis 肝硬化
resection 切除 peripheral blood 外周血
monoclonal 单克隆 telomerase 端粒酶
substitution 突变 translocation 易位
aneuploidy 非整倍体 putative 假设
portal vein 静脉
tumor thrombus 癌拴 inflammatory 炎症
coagulation 凝结(血) coenzyme 辅酶
oxidative 氧化 histidine 组氨酸
mediate 介导 spindle 放垂体
HBsAg 乙肝表面抗原 ALT 谷丙转氨酶
albumin 白蛋白 postsurgical 术后
biopsy 活检 nodule 结节
catastrophic 灾难性的 albeit 尽管
epithelial 上皮 prostate 前列腺
pancreatic 胰腺 interventional 介入
surveillance 监控 hepatectomy 肝切除
intriguingly 有趣的是 prospective 预期前瞻性
expedite 促进    

我去年做了2个Jekyll的博客模版,然后放在github上,选择了MIT license作为授权许可协议。 这个协议的特点是只保留我的版权,其他东西可以随意修改,再发布。 最近我发现,在使用模版的用户中,一些用户在修改后,把我的License也修改没了,连我的版权信息都抹去了。 我不在意是否在博客的页面下方有对于这个模版的引用地址(一般人都会保留原repository的引用地址,非常感谢这些用户),但是在github的repository里,你连License都修改了,是不是也太不要脸了?

以后见到一个我就在这里加一个github repository的地址,曝(Pu4)光一下这些人。这篇文章也会在博客模版的首页永远置顶。

[20150703更新] 用户已经修正License的,会剔除出曝光列表。

MIT license

http://choosealicense.com/licenses/mit/

The MIT License (MIT)

Copyright (c) 2014 Lijia Yu

Permission is hereby granted, free of charge, to any person obtaining a copy
of this software and associated documentation files (the "Software"), to deal
in the Software without restriction, including without limitation the rights
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
copies of the Software, and to permit persons to whom the Software is
furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE.

[20150709更新]

我在freshman21的博客里注明了在fork并修改这套模版后正确的License修改方式。 感谢用户们的支持,这次发现的问题都发生在国内用户中,所以有了这篇博客,我之后私下联系了我看到有问题的repo作者,他们都很礼貌的将Licese修改正确。 也感谢最开始,被我挂到网站上的那位用户,主动联系了我解决问题。 另外,我自己也要总结,没联系对方时,最好不要在网站上挂出来,当时一激动就直接挂了最开始找到一个,给对方也造成了一定的麻烦。 在此感谢所有用户的理解与支持。