最近看了赵皓阳写的几篇文章,文章主要思考目前中国的社会问题、阶级趋势, 最新的一篇总结了今年新闻中的潜台词

先不说他的屁股冲哪个方向,但从所作的分析,让我重新认识到以前马克思恩格斯写的那些东西究竟有什么意义, 重新审视了文化大革命,之前到研究生节阶段都要学习的哲学原理究竟应该怎么用。历史永远在重复,从之前的事情能总结到什么经验。 由于越老越没锋芒,现在觉得鲁迅当了作家的贡献远远大于做医生,他所指出的问题在中国社会中依然存在,依然无法解决,我前二十多年个人对他的看法完全是错误的

最后,少吹牛逼,多做事实,争取早日实践科技革命论并取得成功。

20160425 此文仅评价部分文章内容,并不能说明此人写的文章都能对其题目作出恰当的评价和讨论。


Genome structural variation discovery and genotyping,这篇2011年的综述介绍了结构变异的检测方法和其他相关内容,对于初次进入这个领域的人是一篇不错的指导资料。

一般情况下如果在正文中没有提到文章题目,请看博客日志的连接,连接只要不太长,就是英文题目。

首先来看一下基因结构变异都有哪些情况。一般情况下,定义结构变异在1kb以上的区域的插入、缺失或者倒位。

  1. Deletion
  2. Novel sequence insertion
  3. Mobile-element insertion
  4. Tandem duplication
  5. Interspersed duplication
  6. Inversion
  7. Translocation

Imgur

对于大的变异(主要是获得或者缺失几百kb的片段)在人群中是十分少见的(<1%)但是会影响很大一部分疾病。 对于多拷贝基因家族,主要是基因拷贝数量的变异,主要对于疾病的作用是在敏感性方面(即,有些拷贝变异使得个体更容易得某些疾病)。

基于杂交的芯片方法

array CGH (array comparative genomic hybridization)

这个方法好像直接用两个样本的数据进行比较,取ratio。 存在的问题是,当只有一个样本时,在reference样本上的一个缺失,会被错判成测试样本上的一个增加。所以用array CGH的关键是要有一个可靠的reference。 这种方法多用于检测大于100kb的CNV。基本无法定位breakpoint。

罗氏提供的此类芯片(2011年)每个oligonucleotide长约1M,一共2.1M个。 检测一个CNV要3到10个probe。

SNP array

SNP芯片可以测CNV,应该是这么一回事。文章中也是这个意思。 SNP芯片的缺点是信噪比低(low signal-to-noise ratio)。也就是噪声大。

芯片的整体缺陷

探针都是定义好的,没法发现新的SV,breakpoint上也不一定有探针。

上述两个平台的芯片在检测拷贝数变多方面上比检测拷贝数减少要困难,敏感性降低。 所以很容易就看到检测出的小区域SV变化绝大多数都是缺失。

非特异性的芯片对于10kb一下的SV检测敏感性都会降低(除了那些特别设计的芯片)。

当然,芯片最重要的缺陷是在检测含有重复序列区域的时候。 array CGH和SNP平台的假设都是在参考基因组上都是二倍体,但是在重复区域这一假设并不有效。但是CNV同片段重复有强相关性,很多breakpoint也出现在重复区域。

single-molecule analysis (这章节没看懂)

理解SV的结构和位置必须需要从单分子层面的可视化手段。 fluorescent in situ hybridization(FISH) 和光谱核型(spectral karyotyping)分析是我们窥视普通和稀有基因组结构变异的方法。 但是这些方法的缺点也很明显,低产出,低分辨率,只能找到500kb~5Mb的结构变异。 有一个源于酵母基因组的相关技术现在可以用于人类基因组的SV检测(好像是光纤方面的)1 2 。此技术是基于对传统限制性图谱的改良,对固定的DNA做限制性消化。这个技术可以用来检测倒位,转座,拷贝数变异以及这些结构变异的位置。 但是,还是对检测新的结构变异有限制,因为它的技术中需要用到参考基因组。(这段关于实验的内容没有看得太明白

另外文章还说,条形码技术是一项非常有用的技术,在未来可以支持高通量的检测结构变异。这些方法包括在纳米级别的通道扫描荧光标记的DNA分子等(these methods include scanning fluorescently nick-labelled DNA molecules in nano-channel flow cells or nanoslits and the use of SNP-specific labelling of stretched DNA for haplotype resolution)。

基于测序的计算技术

Read-pair technologies

这个方法就是对于pair-end 的一对短序列进行中间空缺长度以及短序列方向的检测,找出同参考基因组相比有映射空缺(span)或者方向问题的序列。 序列如果映射到很远的两个地方,说明是一个deletion。序列如果映射到极端近的地方,没准就是一个insertion。 如果方向不一致没准是倒位,或者一系列的串联重复。 如果序列只有一端可以映射到参考基因组,而另一端不能映射到参考基因组,很有可能是新的insetion(Read pairs in which only one end clusters and the others do not map to the reference have been used to flag variant sequences not included in the reference genome (novel insertions).)。 采用这种方法的软件有: PEMer, VariationHunter, BreakDancer, MoDIL, MoGUL, HYDRA, CoronaSPANNER

Read-depth methods

这个方法基于序列映射的深度是泊松分布或改良的泊松分布的假设,然后探测这些序列的深度不符合分布的情况,深度超高的地方可能有重复区域,深度低的地方可能是deletion。 这个方法最先用于癌症基因组的重排列现象(rearrangements)。如果用此类方法来找寻小范围的deletion和duplication(breakpoint级别的),需要的方法是event-wise-testing (EWT) algorithm 以及CNVnator软件。

Split-read approaches

分割短序列的方法可以用来检测deletion和小的insertion,分辨率可以达到“碱基”级别。这种方法首次应用在较长的sanger测序的序列上。 这种方法意在用分割短序列的方法找寻breakpoint。,这条序列无法直接比对到基因组上,序列中间有gap可能是deletion,比对到基因组上中间总是多出一块有可能是insertion。 Pindel algorithm用在paired-end的reads上大大减少了此类方法的搜索空间,提高效率。

Sequence assembly

理论上,所有形式的结构变异可以归结为拷贝,内容,结构的差异。我们可以通过从头(de novo)组装来识别这些变异。 也就是将短序列拼接成一个长序列contig然后再同参考序列进行比较。 基于短枪法(shortgun)从头比对拼接相关的软件有EULER-USRABySSSOAPdenovoALLPATHS-LG。除此之外,Cortex可以用来做de novo的拼接,也可以设置成不同程度的根据参考序列来拼接。 另外,它还可以在不用参考序列的情况下进行组装和找寻SV。NovelSeq framework 合并de novo和局部组装的方法来定位新的序列insertion。TIGRA用来找寻SV中的breakpoint。

这些方法的局限在于

只能找寻一部分SV,并且由于算法的不同,找到的结果差异较大。 Read-pair technologies 方法对于重复区域的处理有问题,另外对于breakpoint的搜寻要取决于fragment的大小和分布,对建库有较高的要求,且价格不便宜。 90%的检测到的区域小于1kb并且大多数都是deletion,insertion很少能检测到。 Read-depth methods 方法没法赵精确的breakpoint。 Split-read approaches 分割短序列只在unique的区域可靠(split read is currently reliable only in the unique regions of the genome)。 Sequence assembly 方法在重复区域有偏,在这些区域找不准。

SPANNERCNVerGenome STRip三个方法,联合read-pair和read-depth方法,来找CNV,增加了可靠性。

人类基因组中有很多重复序列和片段重复,这些区域需要有更好的算法来检测SV。另外短序列深度(reads depth)也是很重要的指标,例如人类1000基因计划的数据,reads depth只有2到6fold。 敏感性和精确性同reads depth相关。

MoGUL算法结合多个个体的数据来找共同的CNV,解决了局部reads深度的问题,但是也降低了对于低频CNV的敏感性。

VariationHunter 采用相似的策略,并且对于稀有结构变化较为敏感。

上面讲到的不同检测方法参见下图。

Imgur

Genotyping(基因分形)

不同于测序技术,这个技术就是用PCR之类的方法检测已知的结构变异。对于检测的窗口大小可以设计的较为自由。 方法包括:PCR-based techniquesSNP array-based techniquesArray CGH-based techniquessequencing-based approaches。 在sequencing-based approaches中又简单介绍了几个软件的内容,详情请看论文,这里就不介绍了。

future direction

加强检测精确性,要结合计算方法和实验方法。 建立“金标准”来评价不同的SV结果。

单词本

英文 中文 英文 中文
elusive 难以捉摸的 widen 放宽,拓宽
tandem 串联 intersperse 穿插,点缀
inversion 倒位 susceptibility 敏感性,易受损害的状态
Hybridization 杂交 workhorse 驮马,主力,重负荷机器
refine 提炼 overwhelmingly 无法抵抗,压倒性的,绝大多数
ascertainment 探查 valid 有效
pathogenic 致病性 optical 光纤
capillary 毛细血管 capillary sequencing 毛细管测序
delineate 划定 fosmid F黏粒
segmental 阶段性 stretch 拉神
span 跨度 infancy 婴儿期
discordant 不和谐的 prohibitively 禁止
devise 设计 versatile 多才多艺
owing to 由于 facilitate 方便,帮助,促进
collapse 塌陷 ameliorate 改善
impuitation 归罪 discrepancy 差异,矛盾,不符合之处
veil 面纱 lift 揭开

Reference

  1. Schwartz, D. C. et al. Ordered restriction maps of Saccharomyces cerevisiae chromosomes constructed by optical mapping. Science 262, 110–114 (1993). 

  2. Teague, B. et al. High-resolution human genome structure by single-molecule analysis. Proc. Natl Acad. Sci. USA 107, 10848–10853 (2010). Application of the optical mapping technology to characterize human genome structure. 


这篇文章是今年7月发表在新英格兰医学上面的。研究了再生障碍性贫血在病人中的一些特点。 都是临床统计,没干货,只是病人样本多(新英格兰上还有比这更多的)。

背景:据现有研究资料表明,获得性(非遗传,后天的)再生障碍性贫血的患者中有15%的患者会患上骨髓增生异常综合征或者急性髓性白血病。

方法:本文就追踪的439个病人的668份血样,其中在82个病人中获得了连续性的样本。他们对样本进行了测序或者芯片提取DNA。

研究结果发现:三分之一的再生障碍性贫血病人中有体细胞突变。这些突变产生在小部分的基因上,并且是低频突变。 其中在47%的病人中检测到了克隆造血(这是最常见的获得性突变?)。突变的数量随着年龄的增加而增加。其中, DNMT3AASXL1的克隆尺寸倾向于随着时间推移而增大,BCORBCORL1PIGA突变大小会减小或者保持不变。 在PIGABCORBCORL1的突变对于免疫抑制疗法有很好的响应,病人有较长,较高的无疾病进展存活期。 病人有DNMT3AASXL1基因上的突变,往往结果不好。不管怎样,克隆动力是充满变化的(clonal dynamics were highly variable), 并且不能被用来预测病人的治疗和长期存活率。

结论:克隆造血在再生障碍性贫血中比较普遍,一些突变同临床治疗结果相关,高度有偏的突变集合是在坏骨髓环境下达尔文选择的证据。 体细胞克隆的样式在个体中不同时间阶段多种多样,并且频率不可预测。

获得性再生障碍性贫血是因为免疫介导的造血干细胞、祖细胞破坏造成的。 表面抗体呈阳性的CD34+细胞和祖细胞会在再生障碍性贫血中均匀的减少。 在15%的病人中治疗后,会发展出骨髓增生异常综合症,或者急性髓性白血病,有的病人还会两者皆有。 这种现象被称为“克隆演化” (clonal evolution)。

克隆演化很早前就被用来描述由于免疫疾病引起的癌症,但是本文中的作者认为这个词用的不恰当。 因为许多得了再生障碍贫血且有克隆造血的病人并没有发展成其他两种病。

样本

机构 病人数量 对照
NIH 256 CD3+ T cell
Cleveland 24 CD3+ T cell
Kanazawa 159 口腔粘膜细胞(22个)

还有82个患者测了不止一次的数据,一共收集668份血液样本。

Result

SNP核形分析

一共在439个病人中的156个中测到了249个突变。其中56个病人身上检测到了1-7个突变位点。 BCORBCORL1PIGADNMT3AASXL1这些基因上的突变占到了总数的77%。

除去BCORBCORL1PIGA,其他突变的频率和突变数量都同病人的年龄正相关。

在NIH的数据中,大部分的突变位点在第一次检查和6个月治疗后再次检查时的突变频率有显著的变化,6个月后的突变频率要高。 但是有突变的基因没有显著的变化。

除了位点突变,染色体6pUPD区域的缺失现象在三个机构的病人中都非常显著(此现象好像是这个疾病一个明显的特征)。

missense的突变同其他的nonsense,frameshift,splice site相比较有明显的偏好性(从补充材料图中我认为这种偏好性是指在某些基因中出现的多,在某些基因中出现的少)。

临床相关性

在补充材料中可以看到有突变和没有突变的两组病人中,免疫抑制治疗的疗效没有什么差别(NIH,Kanazawa分别做的,代表不同地区的病人)。

然后细分到基因层面,对每个基因上的突变,是否会影响免疫抑制疗法,结果是只有BCORBCORL1这组基因的突变后,疗效有显著变化,能治愈的人比例增加(NIH群体)。

对于有这些体细胞突变和没有这些体细胞突变的病人,他们的总生存期和无进展生存期也没有显著区别。

之后他们用机器学习和惩罚似然逼近的方法从突变中挑选出同好的治疗响应,坏的治疗响应相关的基因(突变)。在正文中展示出较好的结果。 有BCORBCORL1PIGA基因突变的人群预后和生存期都变长。

之后又用Cox比例风险模型算出,“有利”的突变同好的全局生存期相关,“不利”突变,大龄,男性,初期网织红细胞计数(initial reticulocyte count)同不好的全局生存期相关。

再生障碍性贫血的克隆构型年表(Chronology of Clonal Architecture in Aplastic Anemia)

接下来,他们对于52位病人进行了长期分析,用于研究克隆造血现象。

克隆造血现象在其中85%的病人身上都有检测到。每份血液样本中的平均非同义突变数量是1.21个,随着年龄的增长,非同义突变的数量会增加。

其中35位按年追踪的病人中,在诊断前就已经有克隆造血的现象。

接下来,他们具体展示的三个病历(2女性,1男性)。

DNMT3AASXL1RUNX1或者U2AF1突变的克隆会随着时间延长而增大。

BCORBCORL1PIGA 突变的克隆保持稳定或者减小。

讨论

讨论部分就是重复上面的内容,说明他们发现了什么。

单词本

英文 中文 英文 中文
Clonal Hematopoiesis 克隆造血 Aplastic Anemia 再生障碍性贫血
pancytopenia 各类血细胞减少 immunosuppressive therapy 免疫抑制疗法
myelodysplastic syndromes 骨髓增生异常综合症 acute myeloid leukemia 急性髓性白血病
progression-free survival 无疾病进展存活期 misnomer 用词不当
X-chromosome skewing X染色体倾斜失活 paroxysmal nocurnal hemoglobinuria 振发性睡眠性血红蛋白尿症
cytogenetic 细胞遗传 uniparental 单亲
disomy 二体 implicate 牵连
buccal 颊,口腔 smear 涂片,涂抹
specimen 标本 morphologic dysplasia 形态发育不良
vouch 担保 integrity 完整性
completeness 完备性 myeloid 骨髓
multilineage 多系 amplicon 扩增子
recapitulate 概括 hazard 风险
reticulocyte 网织红细胞 chronology 年表,年历
depict 描绘 favorable 有利
hemoglobin 血红蛋白 platelet 血小板
cyclosporine 环孢素 asterisk 星号
antithymocyte 抗胸腺细胞 globulin 球蛋白
thrombocytopenia 血小板减少症 megakaryocyte 巨核细胞
dysplasia 发育不良 compatible 兼容

这篇文章花了好几年,终于在PNAS发出来了。是PNAS哦~-_>- PNAS发文章分为三类,具体请大家自己从网上搜索。这篇文章是(美国国家科学院)院士自己挂名的文章。 其中reviewer都是老朋友,一位是给天皇儿子当老师的Takashi Gojobori,另一位是jianzhi zhang。 可以说这篇文章是那位院士用掉了自己4篇文章的一个名额,送到PNAS的。

当时结果出来的时后据说投哪都被拒,每每在不同机构讲这个工作汇报(不知怎的,可能是时间原因,我一次都没听过),Wu老师总是有点忿忿不平,感觉太前沿的东西,大家都不相信。

但时到今日,我看了整篇文章后,感觉这工作被拒很正常,数据量、计算和实验方法来支持这个结论有些勉强。

另外,我的tags取得比较纠结,整篇工作没抓住什么重点。

下面简单介绍一下具体的内容。

首先在Introduction中介绍了达尔文理论,肿瘤内部对新突变是有选择的。选择会在群体层面减少突变异质性,达尔文演化模型多被用于描述在coding区域的总体突变情况。 但是这个理论从未在实际定量的角度被证实过。一般研究中常用肿瘤中总体的编码区域的突变数量\(M_{ALL}\)来描述达尔文演化理论。

“后现代观点”中,自然群体中的遗传多样性同非达尔文模型很大程度上一致。

本中从一块肝癌组织上获得286个小样本,就是一个圆形的区域,分成四个象限,每块小组织是直径位0.5mm高度位1mm的圆锥体。每个小样本估计含有20000个细胞。 这些样本中只有23个样本做了测序,其中12个样本在区域的外围,11个样本在内部靠中间的地方。 在编码区域和剪接位点,一共发现了269个SNV。其中在多个样本中出现的SNV可以说是进行了样本交叉验证,算可靠的。对于只在一个样本中出现的SNV,需要sequenom genotyping或者sanger sequencing检测。 检测结果表明这些也都是可靠出现的SNV。本文在研究中不考虑假阳性问题,认为只要是测序或者质谱或者sanger测出的SNV就是真的SNV,所以没有假阳的数据,而假阴性问题由于样本数量大,所以可忽略不计。 本文也研究了CNA,平均每个样本中检测到23.6个CNA,分布在14个染色体。由于CNA的产生机理比SNV要复杂,并且不好用实验来检测,所以后面只研究SNV的变化。

然后文中,将somatic mutation分成两类,一类是固定(fixed)的somatic mutation,这些mutation的特点是在所有的癌症样本中都出现,但是在正常的样本中不出现。 多样性动态(polymorphic)的mutation,定义为不在所有肿瘤样本中出现的mutation。上面找出的269个mutation中209个是固定的,35个是多样性的。 剩下的25个位点,被分成两部分,一部分是22个可能固定的,另一部分3个是可能多样性的,这些位点就不再研究了(不知道这些位点是怎么被分类成这样的)。

他们用35个多样性的mutation,来确定克隆的大小和划定克隆的界线。

对于固定的mutation,他们从TCGA上找了在肝癌中出现的一个driver基因列表,看在这些基因里有多少有mutation。然后他们发现在6个假定的diver基因中存在mutation。 另外35个多样性的mutation完全不属于这个基因列表集合。

之后,35个多样性的mutation确定了23个样本中存在20个克隆。 在这里他们定义克隆是一类具有唯一存在于这些细胞中的突变的细胞集合。定义在\(n\)个样本中出现\(i\)次的克隆数量为\(\Phi\),对于[\(\Phi_{i}\),i in 1 to n-1]这个向量,就是群体遗传学中的allele frequency 谱。 例如:[\(\Phi_{i}\)=18,1,1,0,0,0,…;i=1-22],n=23=181+12+1*3,也就是说,在20(=18+1+1)个克隆中包含了18个单突变(只在一个样本中出现),1个双突变(在2个样本中发现),1个三突变(在三个样本中发现)。 他们用Simpson ‘s diversity index 计算了两个随机的样本的遗传相似性非常低。

根据用35个多样性mutation确定克隆大小的方法,我觉得也可以更换定义,使得克隆数减少。所以这个定义是否具有普遍性,是一个问题。

之后他们还画出了这些克隆的相互关系。然后根据genotype画出了克隆的大小和空间关系。从系谱上分析,分开的克隆是隔离的,说明细胞间的运动在实体瘤中较为有限。 另外克隆是“向外”长的,衍生的克隆大多在外层。

接下来是假设检验:原假设是所有克隆有同样的生长速率(非达尔文理论),备择假设是达尔文理论会选择一些克隆,这些克隆生长速率快于其他的克隆。

经过他们的计算,结果无法拒绝原假设,所以说结果支持非达尔文理论。

后面又建立了模型来说明肿瘤整体的遗传多样性和肿瘤内部的遗传多样性。(这个我觉得不管怎么做,肯定结论就是又多样性,没有得出什么新的结论和现象)。

在讨论中,他们又详细解释了为什么非达尔文理论同实验现象一致,达尔文选择却很难看到(一个原因是在bulk数据中突变的频率非常低,难以发现符合达尔文选择的现象)。

这个文章看了之后,间隔的时间太常,在写这篇笔记时很多内容已经记忆不准确了。

英文 中文 英文 中文
caveat 警告 periphery 外围
terminology 术语 polymorphic 多态性
emanate 散发 progenitor 祖先
segregate 隔离 sector 部门
stifle 扼杀 blunt 迟钝
loosen up 放松 adjuvant 辅助药物
ascertain 确定 delineate 划定
genealogy 系谱,家谱 posit 假定

A comparison of fold-change and the t-statistic for microarray data analysis,这文章是大神Robert Tibshirani和Daniela M. Witten(是Robert的一个学生,现在华盛顿大学生统专业做PI)写的。整篇文章每句话都非常重要!

对于芯片数据中control和treatment样本间信号强度的比较,筛选差异大的基因,会用到fold-change或者t-statisitic。 文章作者比较了这两种情况的计算出的差异基因之间的差别。 说明在没有背景噪声的情况下用fc比较好,在有背景噪声的情况下用modified t-statisitic比较好。 作者还指出可重复性精确性之间也不是完全一致。 传统的t检验在可重复性和精确性上都不如fold-change和改良的t检验,所以在芯片数据分析时,不要用传统的t检验。

Introduction

这部分,文章重点介绍了他们的实验方法,用真实的microarry数据和模拟的数据来做分析,采用的筛选基因的方法包括传统t检验,改良的t检验,两种fold-change方法。 模拟后结果说明用究竟是用fold-change或者改良的t检验取决于我们的研究是对基因表达量的绝对变化感兴趣还是对基因表达量相对于其噪声的变化感兴趣。

Therefore, a researcher’s decision to use fold-change or a modified t-statistic should be based on biological, rather than statistical, considerations.

Statistical measures of differential expression

方法1. 传统t检验的统计量

\[T_i=\frac{\bar{x_i}-\bar{y_i}}{s_i}\]

其中\(s_i\)是对于基因i的组内样本重复间的标准差。

方法2. 改良的t统计量

\[T^{"}_{i}= \frac{\bar{x_i}-\bar{y_i}}{s_i+s_0}\]

其中\(s_0\)是为了让\(T^{"}_{i}\)的变异系数最小的一个常量,在本文中用的是Significance Analysis of Microarrays (Tusher et al. 2001)中的计算方法。 我在wiki1上查了一下,上面说\(s_0\)是根据\(\alpha\)分位数来定的。另外有些文章2中直接将\(s_0\)定义成\(s_i\)的中位数。

方法3. 标准fold-change

\[FC_i=\frac{\bar{x}^{'}_{i\cdot}}{\bar{y}^{'}_{i\cdot}}\]

其中\(\bar{x^{'}_{ij}}\)和\(\bar{y^{'}_{ij}}\)是基因i在组内样本j的原始表达量(control除以treatment)。

方法4. 另一种fold-change算法

\[FC_i=\bar{x}^{'}_{i\cdot}-\bar{y}^{'}_{i\cdot}\]

其中我们标记方法3的fold-change为\(FC_{ratio}\),方法4中的为\(FC_{difference}\)。

另外,我们可以看出在增加\(s_0\)的大小后,方法2的排序结果会逼近方法4的排序结果。 \($s_0\)这个常数越大,t统计量的分母越一致,那么对基因排序起到关键作用的就是分子,分子又通方法4的一样…..所以方法2和方法4的结果会比较一致。

为了证明高度可重复的统计量并不是十分准确的,他们在文中构建了一个人工统计量:

\[P_i=(\bar{x_{i\cdot}})^3-(\bar{y_{i\cdot}})^3\]

P代表power,文中说不建议在实际中使用这个人工统计量。

Overview of the genes selected using the different measures

文中分别用模拟的数据,按上面的4个方法来计算差异基因。

从下图中可以看出,按普通的t统计量挑选的基因的标准差都很小, fold-change方法找到的基因在control和treatment里有很大的差异, 改良后的t统计量找到的基因有较小的标准差和组间较大的差异。 由于普通的t统计量和fold-change的结果完全不一样,对于研究者来说,要考虑某个基因在研究中是否重要的根据是表达量的偏移还是标准差的偏移

Imgur

Simulated and real data Concordance

这节主要介绍了他们用的两种模拟策略:一种是基于正态分布的偏移,另一种是基于样本分组间均值和方差的偏移。

关于一致(Concordance)的定义:在一个基因(挑选后的)集合中的基因也在另一个基因集合中的比例。

Analysis of the accuracy of the different measures

下图就是他们分析的一个结果,可以看到样本量在红线左侧时,用\(FC_{difference}\)比较好,样本量很大时就用改良的t统计量较好。

Imgur

其实从我们用的方法来寻找差异基因,一共就度量两类差异: 第一类是\(\mid \mu_{control} - \mu_{treatment} \mid\) ,另一类是\(\mid \frac{\mu_{control} - \mu_{treatment}}{\sigma}\mid\)。 后者主要是标准化基因间的噪声(方差),因为基因均值之间的差异可能是源于基因间表达量的方差有差异。

接下来,他们又考虑了一个比较极端的例子。

  Control Treatment FCdifference FCratio T
Gene1 150, 200, 250 1, 50, 100 3.51 3.97 1.69
Gene2 101.1, 101.2, 101.3 100.1, 100.2, 100.3 0.014 1.01 12.25

这个例子中Gene1表达量在两组间差异很大,Gene2表达量在两组间差异很小。但是如果用t统计量来衡量的话,Gene2远大于Gene1。

我自己计算的结果同论文上的不太一样,Gene1的t统计量是3.6844,而不是1.69。

t.test(c(101.1,101.2,101.3),c(100.1,100.2,100.3))

  Welch Two Sample t-test

  data:  c(101.1, 101.2, 101.3) and c(100.1, 100.2, 100.3)
  t = 12.247, df = 4, p-value = 0.0002552
  alternative hypothesis: true difference in means is not equal to 0
  95 percent confidence interval:
  0.7733042 1.2266958
  sample estimates:
  mean of x mean of y 
  101.2     100.2 

t.test(c(150,200,250),c(1,50,100))

  Welch Two Sample t-test

  data:  c(150, 200, 250) and c(1, 50, 100)
  t = 3.6844, df = 3.9996, p-value = 0.02113
  alternative hypothesis: true difference in means is not equal to 0
  95 percent confidence interval:
  36.87866 262.45467
  sample estimates:
  mean of x mean of y 
  200.00000  50.33333 

那么在生物学家的眼中,究竟哪个基因是需要关注的基因呢?我觉得应该是Gene1吧。

From this perspective, the question of whether the fold-changes or a modified t-statistic results in more accurate gene orderings is really a biological one, rather than a statistical one, as it depends on what types of expression differences between control and treatment have biological relevance.

Analysis of the reproducibility of the different measures

接下来他们又检测了各种方法的可重复性。 从下面的两张图中可以看出前面自己定义的P统计量有很好的重复性(下面第一个图),但是没有很好的精确性(下面第二个图)。 因而说明了,重复性和精确性在某些检验指标中不可间得的问题。

Imgur

Imgur

Conclusions

  1. \(FC_{difference}\)和改良的t检验都是t检验的一种改良形式,也就是有不同的\(s_0\)。一些\(s_0\)的选取可以提高精确性。
  2. 别用普通的t检验。
  3. 可重复性高并不暗示着精确性高,The issues of reproducibility and accuracy should be kept separate when evaluating the performance of a statistic.
  4. 在实际分析中并没有FC和t统计量谁好谁坏的说法,都要看生物学意义。有噪声干扰就用改良的t检验,没有噪声干扰就用FC。

参考资料