p value 与q value
最近要重读一批之前读过的文章,会大量更新笔记。
首先,我就又读了一遍Storey 和 Tibshirani 写的Statistical significance for genomewide studies。 纸质版被满篇标注了重点。在这里仅仅写一下两者的异同,推导请具体看文章附录。
文章是用q value度量FDR对p value 做校正。q value可以说是FDR的定量扩展。
FDR与false positive rate的区别
false positive rate 是符合零模型的特征被认为显著的比率。
FDR是显著的特征属于零模型的比率。
例如:false positive rate = 5% 意思是平均5%的零模型特征在研究中会被判别成显著的。 FDR=5%意思是在所有显著的特征中,平均存在5%的特征是真正属于零模型的。
familywise error rate
In statistics, familywise error rate (FWER) is the probability of making one or more false discoveries, or type I errors, among all the hypotheses when performing multiple hypotheses tests.
中文翻译成“总体错误推断率”比较好。
p value 与 q value
The p value is an individual measure of the false positive rate while the q value is an individual measurement of the false discovery rate.
比较重要的一点是,p value 如果完全响应零假设(不拒绝),那么p value的分布应该服从均匀分布。解释可以参考:http://stats.stackexchange.com/questions/10613/why-are-p-values-uniformly-distributed-under-the-null-hypothesis
q value <= 0.05产生160个表达量具有显著差异的基因,这意味着有大约8个(160*0.05)被称作具有显著差异的基因是假阳的。
对于p value和q value的普遍错误解释是,它们代表假阳性的概率。
例如,一个基因有q value = 0.013,这并不是说它有0.013的概率为假阳的,
0.013是说当我们认为这个基因是假设检验中的一个显著的结果时,而它是一个假阳性结果
,这个事件发生的预计比率(期望比率)为0.013。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
stricter | 严格 | surge | 浪涌 |
underway | 进行 | in favor of | 支持,有利于 |
hexamer | 六聚体 | dissection | 解剖 |
haploid | 单倍体 | progeny | 后代 |
legitimate | 合法 | obfuscate | 混淆 |
intuitively | 直观 | intermediate | 中间的 |
liberal | 自由派,自由主义 | rigorous | 严格的 |
incurre | 发生 | concrete | 实际,具体 |
exploiting | 利用 | conservative | 保守 |
calibrate | 较准 | arbitrary | 随意 |
implicit | 隐含 |