RNA干扰(RNAi)的世界
重新阅读了RNAi的两位诺贝尔获奖者的演讲稿,应该算不上是论文研读,但也没别的类别可写,就放在这个目录下吧。
1. return to the RNAi world: rethinking gene expression and evolution
这是CC Mello的演讲稿,介绍了发现RNAi机制中的标志性事件。Mello有个女儿,是一型糖尿病患者。
In the year 2000 our daughter Victoria was born. In an unfortunate twist of fate, Victoria developed type-one diabetes in the fall of 2001. Suddenly, I had to learn how to inject into a human, my own daughter, for the first time. Ironically, human insulin, the same bacterially synthesized molecule that inspired me to pursue molecular biology, is now giving Victoria her very life. This experience has given me a new perspective on the importance of medical research. Edit, who is a wonderful nurse, is now taking care of Victoria, and serving as a diabetes counselor for newly diagnosed families.
演讲的前面提到研究Caenorhabditis elegans ( C.elegans ) 这种全身透明的线虫给科学试验带来了极大的好处。 在1800-1900年代,德国进化生物学家奥古斯特·魏斯曼 曾提出种质学说:
(1) there is a special particle, the biophore, for each trait; (2) that these particles can grow and multiply independent of cell division; (3) that both the nucleus and cytoplasm consist of these biophores; (4) that a given biophore may be represented by many replicas in a single nucleus, including the germ cell; and (5) that during cell division the daughter cells may receive different kinds and numbers of biophores through unequal cell division.
根据我们目前的知识,这个学说的观点(2)和(5)是不正确的,这个学说也是当时的一个假说。但是如果把这段话中的”biophores”替换成”siRNA”,考虑这个理论在一些traits中的情况,我们可以得到一下观点:
(1) there is a particle, containing
siRNAs, for some traits; (2) thesesiRNAscan grow and multiply independent of cell division; (3) both the nucleus and the cytoplasm can contain thesiRNAs; (4) a givensiRNAmay be represented by many replicas; and (5) that during cell division the daughter cells may receive different kinds and numbers ofsiRNAsthrough unequal cell division.
Mello说这就是当时我们对siRNA所了解的东西,现在看来奥古斯特·魏斯曼的观点在某些生物学现象中是成立的。我想到了于老师最崇拜的拉马克主义, 拉马克学说在表观遗传学中很多地方都成立。
接下来,他又具体介绍了一步一步发现RNAi作用机制的过程。
1.长双链RNA是在rde-1的帮助下作用于Small RNA的
RNAi和microRNA通路中利用不同的RDE-1蛋白家族的成员,聚集到Dicer上。正当Mello他们认为RDE-1在上游起作用时,其他研究组(Greg Hannon, Ji-Joon Song以及Leemor Joshua-Tor)发现Argonaute蛋白有一个同其他可以剪切RNA的蛋白类似的domain(结构域)。
These studies demonstrated that Argonaute proteins repre- sent the long sought ‘slicer’ activity (or the cop) that lies at the heart of the RNA-induced silencing pathway.
2.rde-1的功能
当然,Mello 他们也没闲着,继续研究RDE-1的功能。RDE-1家族的同源蛋白可能在通路的下游起到关键作用。同时他们认为在通路下游的Argonaute似乎没有完整的能起作用的RNA切割相关的核酶酸domain。
3.沉默pathway
Mello的研究发现Argonaute也同一些内源的沉默通路相关,包括转座子和转基因沉默通路。
4.染色质-RNA反馈通路
最有Mello在演讲中介绍了RNA同染色质的相互作用。
In the active conformation the regulatory region of the gene, called the promoter, is free of nucleosomes and is shown bound by the RNA-polymerase complex, (the complex that produces messenger RNAs and the subject of this year’s Chemistry prize).
In the ‘silent’ region a different kind of polymerase activity is recruited. Instead of producing mRNA, this hypothetical polymerase produces transcripts that enter an RNAi-like silencing pathway.
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
aptly | 恰当的 | tremendous | 非常的,了不起的 |
spectacular | 壮观 | contemplate | 思量 |
inflation | 膨胀 | stunning | 令人惊叹 |
speculating | 猜测 | nematode | 线虫 |
lariat | 套索 | snare | 圈套 |
inflate | 使充气,使膨胀 | hyphae | 菌丝 |
interwine | 缠绕在一起 | staircage | 楼梯 |
segregation | 种间隔离 | postulate | 假设 |
wrap | 包裹 | polymenzation | 聚合物 |
elaborate | 精心,详细制定 | exemplify | 例证 |
glowing | 发光 | exclusively | 仅仅,只,独占 |
provocative | 挑衅 | metazoan | 后生动物 |
descendant | 后人 | sophistication | 诡辩 |
flawed | 缺陷 | defective | 有缺陷的 |
gloss | 注释 | ingestion | 摄入 |
apparatus | 仪器 | tackle | 抓住 |
lethality | 杀伤力 | viable | 可行的 |
vexing | 令人烦恼的 | endogenous | 内源性 |
Neurospora | 链孢霉 | fission yeast | 裂殖酵母 |
digress | 离题 | deficient | 匮乏 |
identical | 相同的 | precursor | 先导 |
envisioned | 设想 | intact | 完整无缺 |
polycomb | 多梳 | virtue of | 凭借 |
surveillance | 监控 | nascent | 初期 |
2.Gene Silencing by Double-Stranded RNA(Nobel Lecture)
Fire的演讲围绕着线虫的生物学试验来写的。比Mello的更侧重于某些人做了些什么。很严谨,把能列出的合作者都列在了slides上。 我觉得比Mello的有意思。尤其是他在演讲中提到了一些science/life-lesson说的很逗:
The science/life-lesson that one can draw from this is
if you can do the experiment the way that seems most likely to be effective, do it just that way
A subsequent observation from Sam Driver and Craig Mello, yields the lesson
if you can?t do the experiment the way that seems most likely to be effective, still do it
The lesson here, if you?re a postdoc or perhaps a graduate student, is to do experiments that your advisor would never condone or suggest.
在最后Fire也提到了RNAi在非植物界中的生理过程中扮演的角色究竟是什么还不清楚。如何在更多的动物(高等动物,人)中运用这种技术来治疗疾病也要有很漫长的路要走。
时至今日,我再回顾这个2006年的技术时不得不感叹生物领域的技术淘汰的真快,十年后,现在最火的是基因编辑(CRISPR/Cas9),RNAi终究还是停留在实验室里的工具。
CRISPR/Cas9 今后将会如何呢?拭目以待。
补充一个:如何看待RNAi疗法?
著作权归作者所有。 商业转载请联系作者获得授权,非商业转载请注明出处。 作者:化十 链接:https://www.zhihu.com/question/31136565/answer/56390149 来源:知乎
RNAi和ASO领域目前最好的公司是位于Boston的Alnylam,以及位于Carlsbad的ISIS;目前alnylam最接近FDA批准的药物是利用LNP递送siRNA治疗TTR Amyloidosis (FAP) (临床三期,目前业界对他的结果相当乐观,可能就在年内批准); ISIS有自己的核心ASO技术,有一个药物于2013年被批准,治疗hypercholesteromia,还有很多在2/3期临床。两个公司的pipeline里都有多个药物在未来3-5年有批准的可能。但是目前RNAi或ASO的大问题是只能做liver delivery,其他组织都不太成功。RNAi治疗癌症我觉得potency是一个问题,毕竟只是transient knockdown。RNAi刚出来的时候受到的追捧并不比今天的CRISPER/Cas9少,大家都觉得太牛逼;然而在发展的过程中出现了很多挫败,包括big pharma 的撤退等,因此目前该领域都是相对的小公司在develop。幸运的是过去2-3年里有明显的复苏迹象。我们如果再从历史记录看,这种过山车式的pattern也可以从之前的virus gene therapy的发展过程中看到。从这点来讲,我始终对CRISPER/Cas9保持一个谨慎乐观的态度:说到脱靶效应,CRISPER/CAS9面临的问题更多,临床转化的问题比RNAi更复杂。我个人判断RNAi在未来十年将有多个成药的例子(bottom line),但是能有多成功(upper limit),不太好说。
比较搞笑的是我看得这个版本的paper已经在杂志网站下架了,因为侵权,Fire并没有授权Cell Death and Differentiation 这个期刊来刊载他的演讲。这个期刊的文章中压缩了Fire的slides内容(少了几页)。 我已经不知道当时是谁(任课老师or同学)给我发的文献了,这篇绝版文献也找不到了,最后发张照片纪念一下。
单词表过长,我在看这篇文献的时候头脑空白,所有一看不能想起意思的词都标注了出来。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
disclaimer | 免责声明书 | rod | 杆 |
intriguingly | 有取的事 | virulent | 剧毒的 |
nasty | 严重的 | preliminary | 初步的 |
pathogen | 病原体,病菌 | infection | 传染 |
inject | 注射 | interferon | 干扰素 |
innate | 天生的 | fortuitous | 偶然发生的 |
bellwether | 领导者 | albeit | 虽然 |
disseminate | 散布,传播 | accolade | 嘉奖 |
vehement | 热烈 | frustration | 挫折 |
pierce | 刺入 | cuticle | 外皮 |
manipulate | 操作 | enticing | 诱人的,迷人的 |
aberrant | 异常的 | disruption | 中断 |
explicit | 明确的 | construct | 结构 |
propensity | 偏爱 | dampened | 抑制,控制,减弱 |
accentuate | 强调 | tapestry | 织锦,挂毯 |
concerted nature | 协调一致性 | antisense occlusion | 反义阻断 |
contaminant | 污染物 | fortuitous | 偶然 |
cognate | 同源 | sludge | 泥浆 |
concocted | 调制 | far-fetched | 牵强的 |
ingredient | 组成部分,要素,因素 | twitching | 颤搐 |
agarose gel | 琼脂糖凝胶 | deliberately | 故意的 |
smear | 涂抹,模糊不清 | potent | 有效的 |
tenable | 守得住,合理的 | artistry | 技艺 |
sundry | 各式各样 | homeostasis | 动态平衡 |
in situ | 原位 | accentuating | 强调 |
condone | 容忍 | deliberate | 故意的,权衡,熟虑 |
soaking | 浸泡 | facilitate | 促进 |
Trypanosome | 锥虫 | parasite | 寄生虫 |
conspicuously | 显著的 | intensively | 集中地 |
cadre | 干部,骨架 | sake | 缘故 |
menace | 威胁,恐吓 | subvert | 颠覆 |
attenuate | 变细,减弱 | apparatus | 装置 |
circumvent | 围绕 | grasp | 控制力 |
intricate | 错综复杂 | elucidating | 阐明 |
plethora | 过多,过剩 | abrogate | 废除 |
pristine | 纯朴的 | reassuring | 使安心 |
hindsight | 后见之明 | recapitulating | 总结,摘要 |
catchy | 迷人的,易记的 | incorporate | 组成,包含,吸收 |
intrinsic | 固有的,内在的 | termini | 目的地,界标 |
repertoire | 指令表 | presume | 假定 |
diligently | 勤奋的 | deviation | 背离 |
self-inflicted | 自己造成的 | phosphate | 磷酸盐 |
surveillance | 监控 | remedy | 疗法 |
hitch-hiking | 免费搭乘他人之车 | permeate | 弥漫 |
choreograph | 设计舞蹈动作 | hone | 磨光 |
conceivable | 可想到的 | aggregate | 合计,总数 |
thermodynamic | 热力学 | eliminate | 排除 |
viable | 能养活的,可生产的 | portfolio | 投资组合 |
negotiating | 谈判,交涉 | thicket | 错综复杂 |
trepidation | 害怕 | endeavor | 尝试努力 |
dysregulation | 失调 | consortium | 财团,组织 |
substantial | 大量的 | inadvertent | 无心的 |
omission | 省略 |
贝叶斯理论在21世纪的作用,统计功效与样本大小
今天看了两个短篇,大神Efron给science在2年半前写的贝叶斯理论在21世纪的作用Bayes’ Theorem in the 21st Century
;
Nature Methods有个系列讲统计显著性points of significance之中的Power and sample size
。
重新读完之后感到,统计和生物是密不可分的,做生物不懂统计,得到的结果就失去了指导实践的意义。
Efron大神的短篇主要讲贝叶斯是非常有用滴,从1763年至今,越来越有用,在上世纪50年代我们有了经验贝叶斯这个工具。 该工具在新世纪的大数据统计中焕发光彩。贝叶斯统计让Nate Silver在2012年美国总统大选中百分百预测了50个州的结果。 现在我们还可以结合FDR来用这个工具。当然,贝叶斯也不是万能的,我们总要有其他工具来检测我们的贝叶斯结果是否合理,就是频率理论。 Efron的文章中用词具有多样性,写作时应该学习。
关于显著程度
我们总是说某个假设检验结果显著,那么究竟怎么样才叫真正的显著呢?起码type I error 在0.05,统计功效(整体1减去type II error)在0.80。
如下图中的b所示,即便功效达到0.8,也有可能出现阳性预测率仅仅为0.64的情况。这是因为只有10%的假设是有效的(not null)
用效应值\(d=(\mu_A-\mu_0)/\sigma\)可以来度量零假设分布和备择假设分布之间的差异。
理想情况下,我们希望在type I error 一定的情况下,power越大越好。 达到这个目的有两种方式,一种是用多样本集(参见下图a), 另一种是增大效应值d(下图b)。
所以做试验要有尽量多的生物学重复,会适当减小统计功效太小的问题。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
controversial | 有争议的 | oxymoron | 矛盾形容法,逆喻 |
triumph | 巨大胜利 | sonogram | 超声波图 |
identical | 全等的 | fraternal | 兄弟的 |
identical twins | 同卵双胞胎 | fraternal twins | 异卵双胞胎 |
odds | 几率 | pundit | 评论员 |
impeccable | 无可挑剔 | violator | 违犯者 |
parlance | 腔调,说法,用语 | fueled | 激起 |
repetition | 重复 | dispute | 辩论 |
interim | 暂时的 | corollary | 必然结果 |
firmly | 坚固的 | bust | 破产 |
fire hose | 灭火水龙带 | disparate | 完全不同的 |
intensely | 强烈的 | jujitsu | 柔术,柔道的旧称 |
coined | 创造 | statistical power | 统计功效 |
bleak | 暗淡的,没指望的 | fiscal | 财政 |
rigor | 严格的 | dire | 可怕的 |
unethical | 不道德的 | postulate | 假定 |
noncentrality parameter | 非中心参数 | reassess | 再评估 |
effect size | 效应值 |
用单细胞基因组测序来检测人脑中体细胞拷贝数变异
Single-Cell, Genome-wide Sequencing Identifies Clonal Somatic Copy-Number Variation in the Human Brain 这篇文章是讲单细胞CNV比较早的一篇。我都忘记为什么要看它了。
主要内容用半侧巨脑畸形和正常人的脑细胞,以及淋巴母细胞等细胞来做单细胞全基因组分析,看看扩增方法的噪声对CNV的影响。
单细胞扩增用的是MDA方法。还有一种单细胞处理方法是基于PCR的GenomePlex。
现有研究表明再神经细胞基因组中体细胞非整倍体比较罕见,但是体细胞CNV并不罕见。 文章中说明clonal somatic CNV在正常脑细胞和半侧巨脑畸形中都存在。 这个clonal somatic CNV的意思我不太明白,按文章的意思应该是一个细胞群体中都有的somatic CNV。
文章中有意思的一个地方是用microarray里的median absolute pairwise difference(MAPD)方法来比较拷贝数的噪声大小。 计算连续两个邻居bin上的log2 CN的绝对差异,并对所有bin取中位数,用这个数字代表噪声大小的分值。 计算结果说明MDA方法的噪声要比GenomePlex方法的大。
在后续研究中,他们只用MAPD<0.45的样本。单细胞采样会对测序结果产生较大影响,对单细胞低覆盖度的CNV分析可以用来评估样本质量。
样本之间的比较没什么有趣的东西,就不再赘述。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
neuropsychiatric | 神经精神 | pathological | 病理 |
euploid | 整倍体 | hemimegalencephaly(HMG) | 半侧巨脑畸形 |
dysfunction | 机能障碍 | lymphoblast | 淋巴母细胞 |
manifestation | 表明,表示 | prenatal | 胎儿 |
malformation | 畸形 | defect | 缺陷 |
epilepsy | 癫痫 | aneuploidy | 非整倍体 |
tetrasomy | 四体型,四倍体 | magnitude | 重要 |
compensate | 补偿 | fetus | 胎儿 |
postmortem | 死后 | integrity | 正直 |
intersample | 采样 | discrete | 分离 |
integral | 完整的 | equivocal | 模棱两可,意义不明 |
freeze-thaw | 冷冻-融化 | dicentric | 双着丝粒 |
distal | 末梢的 | unperturbed | 未扰动 |
query | 质疑 | bona fide | 真实的 |
autism | 孤独症 | neuropsychiatric | 神经精神疾病 |
nonetheless | 但是,虽然如此 | suspect | 猜疑 |
intractable | 难对付的 | assay | 测定 |
协同过滤
回顾一下看过的关于协同过滤,推荐系统的论文。
1.Application of Dimensionality Reduction in Recommender System – A Case Study
Knowledge Discovery in Databases(KDD) 中文是在已有数据中找寻知识的技术。
这个可以算是SVD方法做数据降维,协同过滤的一篇非常早的方法。看起来非常简单。
一般我们做推荐产品都是基于一个群体的,这个群体是个sub-group, 整个电商网站的用户会有很多,但是用户之间不一定都有很强的关系。 所以就需要寻找某个用户的邻近用户, 通过这些和他(她)很相似的邻近用户的一些行为来推测他(她)的行为(购买行为,喜欢购买的商品)。 邻居不一定是对称数量的,也就是A有5个邻居,而A的邻居B可能有20个邻居。
推荐系统做的最基本的两个事情:1.预测用户A对某个产品的喜爱程度;2.为用户A推荐一系列产品(用户A可能会购买的)。 在研究中遇到的主要问题:1.稀疏矩阵;2.大数据,计算慢;3.潜在同义词(商品)不好关联在一起。 关于稀疏矩阵在多说两句:有时Pearson nearest neighbor algorithm无法对某些用户推荐很多商品,这时因为存在reduced coverage问题。 如果相似度阈值取得较高,那么用户的邻居空间就会很小,所以在很小的邻居空间里可能就没有很多商品可以用来进行预测和推荐。
在这里本文作者用SVD方法主要解决了两个问题:1.找寻用户同产品间的潜在关系,使得我们可以计算某个用户对某个产品的喜爱程度。
- 降维,用低维空间代替高维“用户-产品”空间,在低维空间中计算邻居。
这个“用户-产品”矩阵\(R\)是\(i\)个用户对\(j\)个产品的打分。
为了预测,首先要对稀疏矩阵进行填充数值:就是把矩阵里的NA,填成相关的数值。 有两种方法:1.填充用户的打分平均值;2.填充商品的平均得分。试验结果表明用后者较好。 接下来要对数据进行标准化,也有两个可行方案:1.转换成\(z-score\);2.对于每个数值减去用户的平均值。试验结果表明用后者较好。
\[R_{norm}=R+NPR\]其中NPR是个需要自己填充的矩阵,提供简单的非个性化推荐。
然后就进行矩阵分解得到低秩的近似矩阵:
- 用SVD分解,获得\(U\),\(S\),\(V\)
- 将\(S\)降维到\(k\)维
- 计算\(S_{k}^{1/2}\),也就是\(S_{k}\)的平方根
- 计算resultant matrices(结式矩阵):\(U_{k}S_{k}^{1/2}\)和\(S_{k}^{1/2}V_{k}^{'}\)
对于任意一个用户c以及产品p,可以得到预测的得分为:
\[C_{p_{pred}}=\bar{C}+U_{k}*\sqrt{S_k}^{'}*(c)*\sqrt{S_k}*V_{k}^{'}(P)\]就写这么多,这篇文章后面有例子,一步一步写得很清楚,可以按照例子计算一次,基本方法就会了。
2.A Linear Ensemble of Individual and Blended Models for Music Rating Prediction 3.Novel Models and Ensemble Techniques to Discriminate Favorite Items from Unrated Ones for Personalized Music Recommendation
这2篇是KDD比较经典的一次比赛,内容就是协同过滤,预测用户对雅虎音乐的打分。做协同过滤最好都看看这篇文章,计算机和数学两方面写的都不错。 台大的多人小组差不多把能用上的方法都用了,人多力量大,这篇文章算是给大家讲解了各种方法解决这类问题的一个思路。
他们所用到的方法有(第一个task中):
- Matrix Factorization
- Restricted Boltzmann Machines
- kNN
- Probabilistic Latent Semantic Analysis
- Probabilistic PCA
- Supervised Regression
4.Hybrid Recommendation Models for Binary User Preference Prediction Problem 这篇还是KDD比赛的,比较了多种neighborhood-based model,latent factor model,content-based model加上SVD分解降维后的结果。 方法要比台大朴素,但效果也很不错。
另外之前说过的模型融合也是看了这几篇KDD文章来慢慢了解的。
5.Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model
这篇文章是在看文章4的时候提到的,主要就是看里面的公式(5) 潜在因子(latent factor)模型的公式。
recsyscode 里对文章中的模型有很好的代码实现。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
unsubtle | 咄咄逼人 | depict | 描绘 |
latent | 潜在 | semantic | 语义 |
leverage | 利用,运用,平衡 | delineate | 划定 |
sparsity | 稀疏 | alleviate | 减轻缓和 |
retrieval | 检索 | syntactic | 语法,句法 |
norm | 范数 | taxonomy | 分类 |
blend | 混合 | stochastic | 随机 |
p value 与q value
最近要重读一批之前读过的文章,会大量更新笔记。
首先,我就又读了一遍Storey 和 Tibshirani 写的Statistical significance for genomewide studies。 纸质版被满篇标注了重点。在这里仅仅写一下两者的异同,推导请具体看文章附录。
文章是用q value度量FDR对p value 做校正。q value可以说是FDR的定量扩展。
FDR与false positive rate的区别
false positive rate 是符合零模型的特征被认为显著的比率。
FDR是显著的特征属于零模型的比率。
例如:false positive rate = 5% 意思是平均5%的零模型特征在研究中会被判别成显著的。 FDR=5%意思是在所有显著的特征中,平均存在5%的特征是真正属于零模型的。
familywise error rate
In statistics, familywise error rate (FWER) is the probability of making one or more false discoveries, or type I errors, among all the hypotheses when performing multiple hypotheses tests.
中文翻译成“总体错误推断率”比较好。
p value 与 q value
The p value is an individual measure of the false positive rate while the q value is an individual measurement of the false discovery rate.
比较重要的一点是,p value 如果完全响应零假设(不拒绝),那么p value的分布应该服从均匀分布。解释可以参考:http://stats.stackexchange.com/questions/10613/why-are-p-values-uniformly-distributed-under-the-null-hypothesis
q value <= 0.05产生160个表达量具有显著差异的基因,这意味着有大约8个(160*0.05)被称作具有显著差异的基因是假阳的。
对于p value和q value的普遍错误解释是,它们代表假阳性的概率。
例如,一个基因有q value = 0.013,这并不是说它有0.013的概率为假阳的,
0.013是说当我们认为这个基因是假设检验中的一个显著的结果时,而它是一个假阳性结果
,这个事件发生的预计比率(期望比率)为0.013。
单词本
英文 | 中文 | 英文 | 中文 |
---|---|---|---|
stricter | 严格 | surge | 浪涌 |
underway | 进行 | in favor of | 支持,有利于 |
hexamer | 六聚体 | dissection | 解剖 |
haploid | 单倍体 | progeny | 后代 |
legitimate | 合法 | obfuscate | 混淆 |
intuitively | 直观 | intermediate | 中间的 |
liberal | 自由派,自由主义 | rigorous | 严格的 |
incurre | 发生 | concrete | 实际,具体 |
exploiting | 利用 | conservative | 保守 |
calibrate | 较准 | arbitrary | 随意 |
implicit | 隐含 |