最近要重读一批之前读过的文章,会大量更新笔记。

首先,我就又读了一遍Storey 和 Tibshirani 写的Statistical significance for genomewide studies。 纸质版被满篇标注了重点。在这里仅仅写一下两者的异同,推导请具体看文章附录。

文章是用q value度量FDR对p value 做校正。q value可以说是FDR的定量扩展。

FDR与false positive rate的区别

false positive rate 是符合零模型的特征被认为显著的比率。

FDR是显著的特征属于零模型的比率。

例如:false positive rate = 5% 意思是平均5%的零模型特征在研究中会被判别成显著的。 FDR=5%意思是在所有显著的特征中,平均存在5%的特征是真正属于零模型的。

familywise error rate

In statistics, familywise error rate (FWER) is the probability of making one or more false discoveries, or type I errors, among all the hypotheses when performing multiple hypotheses tests.

中文翻译成“总体错误推断率”比较好。

p value 与 q value

The p value is an individual measure of the false positive rate while the q value is an individual measurement of the false discovery rate.

比较重要的一点是,p value 如果完全响应零假设(不拒绝),那么p value的分布应该服从均匀分布。解释可以参考:http://stats.stackexchange.com/questions/10613/why-are-p-values-uniformly-distributed-under-the-null-hypothesis

q value <= 0.05产生160个表达量具有显著差异的基因,这意味着有大约8个(160*0.05)被称作具有显著差异的基因是假阳的。

对于p value和q value的普遍错误解释是,它们代表假阳性的概率。 例如,一个基因有q value = 0.013,这并不是说它有0.013的概率为假阳的, 0.013是说当我们认为这个基因是假设检验中的一个显著的结果时,而它是一个假阳性结果,这个事件发生的预计比率(期望比率)为0.013。

单词本

英文 中文 英文 中文
stricter 严格 surge 浪涌
underway 进行 in favor of 支持,有利于
hexamer 六聚体 dissection 解剖
haploid 单倍体 progeny 后代
legitimate 合法 obfuscate 混淆
intuitively 直观 intermediate 中间的
liberal 自由派,自由主义 rigorous 严格的
incurre 发生 concrete 实际,具体
exploiting 利用 conservative 保守
calibrate 较准 arbitrary 随意
implicit 隐含    

读了三篇PNNL某实验室的文章,PNNL感觉都是做蛋白质。 由于是初次接触蛋白质,所以有很多地方都理解的不好,这篇博客主要记录一下大致理解的地方。

Comprehensive Quantitative Analysis of Ovarian and Breast Cancer Tumor Peptidomes

这篇文章是定量分析肿瘤里的肽组学。由于对于肽链,小整体蛋白(多肽组学)经常被评估为不适合用于研究。

The study of the low molecular weight collection of bioreactive peptides, protein degradation products, and small intact proteins (i.e., peptidomics) is often criticized as being less sensitive, less reproducible, and as vulnerable to a lack of controls in sample collection and preparation

文章中用定量多肽组学平台和自己开发的分析工具研究了人类卵巢癌和乳腺癌异种移植的肿瘤样本中多肽进行研究。

1.bottom-up 1

Bottom-up(自下而上)是一种传统的手段,它将蛋白质的大片段混合物消化/酶解成小片段的肽后再进行分析,是在蛋白质组学的研究中较为广泛使用的一种质谱技术。然而由于选择性剪接、各种蛋白质修饰(例如乙酰化和甲基化)以及内源性蛋白质裂解等复杂机制的存在,使得细胞内产生了复杂的蛋白异构体及种类。Bottom-up无法完整准确地鉴定这些蛋白的特征。

2.Top-down 1

Top-down(自上而下)技术虽可以直接对完整的蛋白——包括翻译后修饰蛋白以及其它一些大片段蛋白测序,然而由于不能将完整蛋白质片段分离技术与串联质谱技术相整合而无法开展大规模的蛋白质组研究。

文章的研究做法有点像研究RNA,多肽分析也做得是热图,PCA,火山图等。

同时文章中也发现了个体间多肽的差异,要大于不同组织之间多肽的差异(这个结论在DNA层面也适用,RNA我没仔细做过数据不敢妄下结论)。 也就是聚类的时候每个个体的不同组织部位的数据会聚集到一起,个体和个体相距较远。

单词本

英文 中文 英文 中文
aberrant 异常 degradation 降解
mass spectrometric 质谱仪 xenograft 异种移植
postexcision 切除后 protease 蛋白酶
conventional 传统的、惯例的 proteolysis 蛋白水解
proteasomal 蛋白酶体 malignant 恶性的
metallopeptidase 金属肽酶 collagen 胶原蛋白
chromatography-tandem 色谱串联 serum 血清
plasme 血浆 invertebrate 无脊椎的
endogenous 内源 explicit 明确的、清楚的
repertoire 全部节目 ischemia 失血
anesthesia 麻醉 midline 中线
vertical 垂直 incision 切口
omentum 胃系膜 resect 切除
dissect 解剖 strip
specimen 标本 cryovials 冷冻
nitrogen 氮气 basal 基底
luminal 管腔 subcutaneously 皮下
cryopulverization 低温粉碎 isotopic 同位素
extracted ion chromatogram 萃取离子色谱法 elution 洗脱
intensity 强度 kinetics 动力学
perturbation 摄动 cold ischemia 冷缺血
concentration 浓度 precursor 前体
propensity 倾向 chymotrypsin 一种肽链内切酶,糜蛋白酶,胰凝乳蛋白酶
cytosolic 细胞溶质 proteolytic 蛋白水解

The utility of protein and mRNA correlation

文章一开头就说本文不在于竭尽可能的罗列前人的工作,而是指出什么样的实验能产生科学有用的结论。

正片一共就两页,首先说明了从1999年的一个关于mRNA和蛋白质的研究开始,大家发现了转录组表达水平和蛋白质组的含量没有一个很好的定量关系可以解释。 也就是转录组数据不能预测蛋白质组的水平。但是,RNA在蛋白质翻译中肯定起到了作用,例如:microRNA可以调控蛋白质合成。 mRNA和蛋白质得降解速率也大不相同(前者几分钟,后者几个小时甚至几年),并且对于同一个基因来说,其RNA和蛋白质的合成/降解速率也没有联系。 所以我们不能期望发现mRNA和蛋白质之间简单的相关性。

第二部分就是说如何整合多组学数据,产生深入的新发现。

随着各种技术的不断发展,多种数据整合是非常重要的。蛋白质可以用来监视磷酸化过程,转录组可以用来说明基因上下调时被哪些转录调控因子所调控。 蛋白质可以决定哪些转录本在哪个时间点可以翻译成蛋白质。整个过程是非常复杂的相互调控。 有研究发现,结肠癌CNA的变化通过反式作用来影响多种蛋白质。这个工作建立起了突变(CNV)同表型的关系。

最后作者表达了我们需要的是真正的整合组学研究的观念模式,而不仅仅是相关性研究(see Box 1)。

Box 1. Outstanding questions

  • What is data integration beyond correlation?
  • How do we educate new scientists to appreciate the diversity of -omics measurements?
  • How to determine which -omic data type is best to investigate a hypothesis?
  • When to generate multi-omic data?

单词本

英文 中文 英文 中文
nuanced 细微差别 disruptive 破坏性
interrogation 审讯 elucidate 阐明
succinctly 简洁的 pervasive 普遍
oscillation 振荡 orthogonally 互不相关
utilitarian 功利 perspective 角度
phosphorylation 磷酸化 delineating 描述
cognate 同源 myriad 无数
paradigm 范式 mindeset 观念模式,思维倾向

Analytical platform evaluation for quantification of ERG in prostate cancer using protein and mRNA detection methods

这篇文章是实验检测技术。用PRISM-SRM质谱(不需要抗体)方法来检测前列腺癌症中的ERG蛋白,这种蛋白由于基因融合导致变化,是一个癌基因(原癌)蛋白。

文章的摘要部分已经把内容讲得很清晰了:本文主旨就是找寻新的前列腺癌症检测靶标以及检测方法。在细胞、组织和直肠指诊尿液沉积物中做实验, 用ELISA, western blog, NanoString和qRT-PCR分别检测蛋白和RNA含量。 结果就是不管是检测ERG转录本产物还是蛋白质产物,在临床诊断和预后分析中都有价值。

单词本

英文 中文 英文 中文
prostate 前列腺 post-DRE 直肠指诊
sediment 沉积物 immunosorbent 免疫吸附
lysate 裂解液 prognostic assays 预后分析
androgen 雄激素 Ewing’s sarcoma 尤文氏肉瘤
indolent 缓慢 impetus 动力
epitope 抗原决定部位 immunohistochemistry 免疫组织化学
serologic 血清学 assay 试验
hemocytometer 细胞计数器 ailquote 整除
titrate 滴定 stroma 基质
spurre 鞭策 biopsies 组织活检
Caucasian 高加索人,白种人 endothelial 内皮
devoid 缺乏 mimic,mimicking 模仿

参考资料


由于断网没法工作,有时间看了去年上映的《小王子》电影动画。

记得厄休拉·勒奎恩(Ursula Le Guin)看了宮﨑吾朗制作的动画电影《地海传奇》时评价The moral sense of the books becomes confused in the film 来表达对电影改编的不满。

我看了小王子后,也想说,这是一个套着《小王子》原著外皮的改变故事,导演和编剧在故事里想融入:对成人社会中一些迂腐行为的鄙视;对于家长为了培养小孩成为精英而导致孩子学业繁重没有童年的批评;对于亲情友情的重新审视;从女孩子的视角看这个世界。

我只想说,上面随便一点,有个好的思路都能作出一部好动画作品,可惜都揉杂在一起,还非要贴小王子的故事,讲得一点都没有意思。 总之,电影后半段找长大的小王子开始,一点都不值得一看。小王子故事里的精髓在动画中一点都没有显现出来。


最近看了Ruan YiFeng写的Commit message 和 Change log 编写指南。 了解了如何写规范的commit message。

编写规范

先简要记录一下编写规范,这部分内容可以直接看Ruan YiFeng的博客,要比我写的详细。 编写规范里基本所有内容都来自于Ruan YiFeng的博客,这是我第一次,也是最后一次,在自己的博客里大规模的搬运其他博客的内容。

<type>(<scope>): <subject>
// 空一行
<body>
// 空一行
<footer>

commit message包含三个部分,header, body和footer,其中header必须有,body和footer可以按情况省略。

type 字段

  • feat:新功能(feature)
  • fix:修补bug
  • docs:文档(documentation)
  • style: 格式(不影响代码运行的变动)
  • refactor:重构(即不是新增功能,也不是修改bug的代码变动)
  • test:增加测试
  • chore:构建过程或辅助工具的变动

scope用于说明 commit 影响的范围,比如数据层、控制层、视图层等等,视项目不同而不同。

也就是写用户会感觉到改变在哪个地方。

subject是 commit 目的的简短描述,不超过50个字符

  • 以动词开头,使用第一人称现在时,比如change,而不是changed或changes
  • 第一个字母小写
  • 结尾不加句号(.)

Body 部分是对本次 commit 的详细描述,可以分成多行

  • 使用第一人称现在时,比如使用change而不是changed或changes。
  • 应该说明代码变动的动机,以及与以前行为的对比。

Footer

  • 如果当前代码与上一个版本不兼容,则 Footer 部分以BREAKING CHANGE开头,后面是对变动的描述、以及变动理由和迁移方法。
  • 关闭 Issue

另外,也可以包括JIRA issue references或者其他actions。

Revert

这是一种特殊情况,为了撤销前面的操作。

如果当前 commit 用于撤销以前的 commit,则必须以revert:开头,后面跟着被撤销 Commit 的 Header。

revert: feat(pencil): add 'graphiteWidth' option

This reverts commit 667ecc1654a317a13331b17617d973392f415f02.

Body部分的格式是固定的,必须写成This reverts commit &lt;hash>.,其中的hash是被撤销 commit 的 SHA 标识符。 如果当前 commit 与被撤销的 commit,在同一个发布(release)里面, 那么它们都不会出现在 Change log 里面。如果两者在不同的发布,那么当前 commit,会出现在 Change log 的Reverts小标题下面。

https://github.com/yulijia/cn/commit/e36d3ee657107623ff3fffc4bf8aec4b26a9bac0

修改git message默认编辑器

说了这么多写作规范,如果有个模板可以直接拷贝,是再好不过的。

使用模板之前,先对git message的默认编辑器做个修改,默认的是nano,但这个软件我不会用。

用下面的命令,可以把默认编辑器改成vim

git config core.editor "vim"

使用模板

我采用了Linell编写的模板

安装方式如下:

curl https://gist.githubusercontent.com/Linell/bd8100c4e04348c7966d/raw/84c0ea6e0f0a1431d406be6b7bb6e136949090cd/.git-commit-template.txt >> ~/.git-commit-template.txt
git config --global commit.template ~/.git-commit-template.txt

另外,在这里也提供一个中文的模板

curl https://gist.githubusercontent.com/yulijia/fe2522fe138b6ed41ff4/raw/5fa0007d1863f70cf4631f2dc1513c8676cd4ab8/.git-commit-template.txt >> ~/.git-commit-template.txt
git config --global commit.template ~/.git-commit-template.txt

实际使用截图如下:

Imgur

写博客的commit message应该怎么写?

这部分就是自娱自乐了。查看了一下自己写博客提交的message,基本分为四类:1.提交一篇/多篇新内容;2.改错别字;3.修改/更新内容;4.修改/更新YAML说明;5.增加新页面。

根据现有的git commit message写作规范,编写了自己的博客提交message规范。

<type>(<scope>): <subject>
// 空一行
<body>
// 空一行
<footer>

type为:

  • add 增加新博客/页面(add new post/page)
  • correct 改错别字/语法(correct spelling/grammar )
  • update 更新内容(update content)
  • change 修改YAML说明(change YAML front-matter)

scope为:post/page, spelling/grammar, content, YAML front-matter

subject为:短描述,可以包含文件名等内容(如果名字过长,用首字母大写代替,省略连词)。(add(post):20160121-postname.md )

body为:具体的修改内容,如果是新增博客/页面,则可以省略。

footer为:空

这个模板也放到gist上。

curl https://gist.githubusercontent.com/yulijia/fe2522fe138b6ed41ff4/raw/1e90ec272180dba299f5ad861e72dfab876c0c5b/.git-commit-blog.txt >> ~/.git-commit-template.txt
git config --global commit.template ~/.git-commit-template.txt

实际使用时的截图如下

Imgur


这篇文章我没读,但是昨天看到Lior写的博客,感觉美国的口水仗打得很激烈。 结果今天发现知识分子也发了相关评论。

其实Lior博客里我最感兴趣的是他写文章的风格,首先用Mike Snyder的例子说明一年发42篇文章(平均每8天17个小时一篇), 但是Mike Snyder是系主任,根本每那么多时间一年做42个课题,这些课题都是他的团队一起做的(大约32个博士后,11个研究助理,12个研究科学家,9位访问学者,8个硕博生)。 所以科研工作都是一群人一起做出的成果,生物文章的作者栏因此也越来越长。

但是Lior话锋一转,说提到这些工作成果时,大多都会写“某某PI和他的合作者做了什么…”

继续说这就不对啦,尤其是Lander的这篇文章,每句话里提到的科学团队都是“某某PI和他的合作者”。但所有基本,繁琐,没意思的实验工作都是博士后、学生们做的。 这些贡献者就都被省略了。

他还说:由于发表论文的周期越来越短,论文质量都不行啦。Lander的文章里就没把CRISPR的贡献搞清楚,Jennifer Doudna的贡献写的不太准确。 另外:对于这个领域的2位女科学家的介绍怎么写得那么那么那么的无聊呢?

Lior写的下面这段话实在是太好了。一个科研团队的PI同团队里的其他人相比总是胜利者。言外之意,好处都被他们占了。

There is a more cynical view of the PI model, namely that by running large labs PIs are able to benefit from a scientific roulette of their own making. PIs can claim credit for successes while blaming underlings for failures. Even one success can fund numerous failures, and so the wheel spins faster and faster…the PI always wins. Of course the mad rush to win leads to an overall deterioration of quality.

在知识分子微信中提到Cell同哈佛麻省理工走的比较近,就像麻省理工的宣传期刊。

除了Lander成为众矢之的,在PubPeer网站上,很多匿名人士也将矛头指向了Cell杂志。一名不具姓名的人士表示,“实际上,我对此并不感到惊讶,Cell与哈佛和麻省理工学院的科研群体走得很近,Cell杂志就像是麻省理工学院的宣传期刊一样”。也有人说,“很难相信,这篇文章竟然出现在Cell杂志Scientific Perspective栏目上,我很想看评审专家的意见,以及他们如何让这篇不切实际的文章得以通过。”