基因表达与spiked-in
Revisiting Global Gene Expression Analysis这篇文章在刚发表的时候我们实验室就研读过,但是当时由于自己关注不够多,并且自己处理的数据进行了比例转换所以不涉及这个问题。
但是前一段时间又看了一遍这篇文章,我们都知道在single cell RNA表达分析中一般都要用spiked-in来解决normalization的问题。
但是也有很多单细胞表达量的分析没有做这个分析。
由于同第一次看这篇文章已经有很久了,我早已忘记spiked-in主要应用在肿瘤的研究中,所以现在觉得只要是肿瘤的研究都要做这个分析,才能准确确定表达量。
今天我开始有时间好好读一遍这篇文章,发现文章中提到的表达量normalization用到的两个样本high c-Myc和low c-Myc都是同样的细胞数量,所以对于bulk数据,这个方法好像没法用。
Encode已经把spiked-in当作标准流程了,新上传的RNA表达量数据有些已经带有spiked-in了,我需要在去检查一下究竟那些数据是单细胞(定量细胞的)还是bulk(组织)的大致看了一下,好像tissue的就有。
现在简单复述一下这篇文章的内容。
- 首先以往研究中发现c-Myc高的细胞中很多基因的表达水平整体提高,整体的RNA水平要比c-Myc低的细胞高出2-3倍。 这个现象引出问题:以往的标准化方法没有考虑到整体表达水平的升高和抑制,这样会导致解读RNA表达量数据出现问题。

-
如上图所示,AB图中两个细胞的RNA水平一致,所以标准化后可以看到基因B和E表达量是明显升高的。 对于CD图中的两个细胞中的一个细胞表达了比另一个细胞多1到2倍的RNA,如果还用正常的标准化方法可以看到A、G、I这三个基因表达量上升。 而D、E、F这三个基因表达量下降。但实际情况呢,其实这些基因基本上表达量都升高了。
这个标准化产生的问题是基于这样一个假设,即我们认为每个细胞的所有mRNA表达水平是一致的。
-
进一步说明我们常用的分析方法将这种表达量的差异看作技术误差,也就是理解为噪声, 并希望在研究中对于不同的样本或实验之间的
表达水平
要有同样的中位数,或均值,或在一个范围内的表达量分布要基本一致。 -
为了得到可靠的基因表达量,文章中采用spiked-in 标准,加入表达量基本确定的RNA作为参照。 他们分别在Microarrays,RNA-seq以及Nanostring中做了实验,加入spiked-in RNA的表达谱变化更接近真实情况。 另外,做实验时严格统计了c-Myc高和c-Myc低的细胞数目1在同等细胞数目的条件下进行的RNA表达情况的分析。
-
当无法具体统计细胞数目时怎么办? When cell counting may be problematic, as for expression experiments from solid tumors or tissues, DNA content may be used as a surrogate if ploidy and DNA replication profiles are also characterized to prevent the introduction of a DNA content-based artifact.
-
以前的全基因组表达量数目中有多少我们已经解读错了? How prevalent is misinterpretation of genome-wide expression data due to the assumption that cells produce similar levels of total RNA? The answer is likely related to the prevalence of regulatory mechanisms that globally amplify or suppress transcription.
最后对于RPKM的标准化可以用R包affy中的loess.normalize2来实现。说白了就是做回归平滑的时后可以选取所有的样本点(老方法),或者只选取一部分样本点(spiked-in的RNA,新方法)。
备注:
长寿很重要
对,我说的就是今年诺贝尔生理及医学奖。恭喜屠呦呦和另外两位获奖者。
今年的奖偏向临床医学,希望以后能有更多振奋人心的临床应用获奖。
在说个无关的感悟,个体化医疗正在步入人们的生活,在身边的人谈论这个的越来越多,美国吹什么风,就指导了国内近几年的新产业方向。
我这篇文章的英文链接是临床应用,结合前一段时间同未来医生的谈话,这个方向是十年后能成真的一个深入人们生活的平常事件,希望自己能持续关注。
—-20151006—–
中医与西医
补充一些内容,由于这个奖颁给了Tu 并且同中医药有一定的关系,现在对于中医西医有没有用的争论又开始了。
聪明的中国和印度记者在诺贝尔奖的记者会上也问了这个问题,我觉得果壳网给的翻译能说明问题了(上网不便我没有找原文)
另外这个奖不代表中医的胜利或者西医的胜利,而是现代医学的胜利。 中西医都有传统医学,都有愚昧不科学的地方,这个工作是发掘传统医学中药物的关键成分是哪个化合物并提取出来。
废医验药不是一句空话,要废除愚昧的医学理论,验证传统草药的真正有用成分,这才是传统中国医药在新世纪焕发光辉的办法。是一条可行之路,必经之路。
诺奖推荐
这个要感谢国外华人华侨学者的强力推荐。这次两个得奖内容都是帮助贫困地区的人们摆脱疾病的困扰。 乍一看挺不搭边,有点拼凑。
这个工作与当时的国内环境,Tu究竟是不是重要参与者
是的。当时由于集体主义观念浓厚,发论文都不能署名,最后闹这么多问题出来也的确有中国特色。
未来医生
今天重新认识了“未来医生”的样子,应该是懂个体医疗,会测序技术,能找药物靶点突变,热爱事业的人。尤其是肿瘤科室的医生,应该向这个方向发展。上能看病,下能分析数据。医生这个职业太了不起了。希望国内能出现更多这样的医生。
实验室风格相关的趣闻
听闻了几个实验室的学生trainning趣闻:每天一个图或表;早上写工作计划,第二天早上再对前一天的已完成内容做总结。
这种风格成就了老师,也会影响走上科研道路的学生的实验室风格。
Hexo or Jekyll
最近一直在纠结是用Hexo还是Jekyll来搭建今后的内容分享平台,这两个博客系统中Hexo的生成静态网页速度远远快于Jekyll,但是由于GitHub page的影响,Jekyll的用户群体比较大,成熟的模板比较多,纠结来纠结去,还是打算用Jekyll。 然后,在Jekyll Gallery发现了一个非常喜欢的模版,我翻译了hpstr-jekyll-theme,很喜欢这个作者的主题。hpstr-jekyll-theme缺少很多一般博客必须的元素(例如:文章目录),并且在本地化时需要将disqus换成中文版的一些留言系统,这些内容也会尽快实现。