山中伸弥(Shinya Tamanaka)是我非常尊敬的科学家。 当时在细胞生物学的讨论课上几个人一组做slides讲他的工作。 这是我第一次接触实验生物学的内容。 对于试验一窍不通的我,同微生物所的同学们一起读这篇文章,学到了很多东西。

这个实验过程很繁琐枯燥,感谢Takahashi和Yamanaka做了这么多工作,使得大家不需要再用几十个因子来测试诱导干细胞。

本笔记比较简陋,只记录当时学的一些东西和想法。

1.为什么选择了不少同tumor相关的因子?

因为肿瘤细胞同干细胞的相似性。

相似性:自我维持,无限传代,分化

2.CAG promoter is a combination of the cytomegalovirus early enhancer element and chichen beta-actin promoter

3.当loxP遇到Cre DNA重组酶时,会进行DNA学列的插入,复制,删除,使基因活化或失去功能。

4.iPS-TTF4和iPS-TTFgfp4克隆移植到裸鼠中形成了肿瘤。

5.Nanog可有可无(无用)。

单词本

英文 中文 英文 中文
differentiate 变异 subcutaneous 皮下的
spinal 脊髓 morphology 形态学
pluripotency 多能性 pivotal 关键
crystal violet 结晶紫(细胞核染色用) passage 传代
mock 空白 loading control 阳性对照
neomycin 新霉素 dispensable 可有可无
concentration 浓度 retroviral 逆转录病毒
transduction 转导 scant 很少
rough 球形 teratoma 畸胎瘤
histological 组织学 cartilage 软骨
epithelium 上皮 trophoblast 滋养层
endoderm 内胚层 mesoderm 中胚层
fetoprotein 甲胎蛋白 tubulin 微管蛋白
nullipotency 无能性 vitro 体外
gonad 性腺 cheimeric 嵌合

重新阅读了RNAi的两位诺贝尔获奖者的演讲稿,应该算不上是论文研读,但也没别的类别可写,就放在这个目录下吧。

1. return to the RNAi world: rethinking gene expression and evolution

这是CC Mello的演讲稿,介绍了发现RNAi机制中的标志性事件。Mello有个女儿,是一型糖尿病患者。

In the year 2000 our daughter Victoria was born. In an unfortunate twist of fate, Victoria developed type-one diabetes in the fall of 2001. Suddenly, I had to learn how to inject into a human, my own daughter, for the first time. Ironically, human insulin, the same bacterially synthesized molecule that inspired me to pursue molecular biology, is now giving Victoria her very life. This experience has given me a new perspective on the importance of medical research. Edit, who is a wonderful nurse, is now taking care of Victoria, and serving as a diabetes counselor for newly diagnosed families.

Craig C. Mello - Biographical

演讲的前面提到研究Caenorhabditis elegans ( C.elegans ) 这种全身透明的线虫给科学试验带来了极大的好处。 在1800-1900年代,德国进化生物学家奥古斯特·魏斯曼 曾提出种质学说:

(1) there is a special particle, the biophore, for each trait; (2) that these particles can grow and multiply independent of cell division; (3) that both the nucleus and cytoplasm consist of these biophores; (4) that a given biophore may be represented by many replicas in a single nucleus, including the germ cell; and (5) that during cell division the daughter cells may receive different kinds and numbers of biophores through unequal cell division.

根据我们目前的知识,这个学说的观点(2)和(5)是不正确的,这个学说也是当时的一个假说。但是如果把这段话中的”biophores”替换成”siRNA”,考虑这个理论在一些traits中的情况,我们可以得到一下观点:

(1) there is a particle, containing siRNAs, for some traits; (2) these siRNAs can grow and multiply independent of cell division; (3) both the nucleus and the cytoplasm can contain the siRNAs; (4) a given siRNA may be represented by many replicas; and (5) that during cell division the daughter cells may receive different kinds and numbers of siRNAs through unequal cell division.

Mello说这就是当时我们对siRNA所了解的东西,现在看来奥古斯特·魏斯曼的观点在某些生物学现象中是成立的。我想到了于老师最崇拜的拉马克主义, 拉马克学说在表观遗传学中很多地方都成立。

接下来,他又具体介绍了一步一步发现RNAi作用机制的过程。

1.长双链RNA是在rde-1的帮助下作用于Small RNA的

img

RNAi和microRNA通路中利用不同的RDE-1蛋白家族的成员,聚集到Dicer上。正当Mello他们认为RDE-1在上游起作用时,其他研究组(Greg Hannon, Ji-Joon Song以及Leemor Joshua-Tor)发现Argonaute蛋白有一个同其他可以剪切RNA的蛋白类似的domain(结构域)。

These studies demonstrated that Argonaute proteins repre- sent the long sought ‘slicer’ activity (or the cop) that lies at the heart of the RNA-induced silencing pathway.

2.rde-1的功能

img

当然,Mello 他们也没闲着,继续研究RDE-1的功能。RDE-1家族的同源蛋白可能在通路的下游起到关键作用。同时他们认为在通路下游的Argonaute似乎没有完整的能起作用的RNA切割相关的核酶酸domain。

3.沉默pathway

img

Mello的研究发现Argonaute也同一些内源的沉默通路相关,包括转座子和转基因沉默通路。

4.染色质-RNA反馈通路

img

最有Mello在演讲中介绍了RNA同染色质的相互作用。

In the active conformation the regulatory region of the gene, called the promoter, is free of nucleosomes and is shown bound by the RNA-polymerase complex, (the complex that produces messenger RNAs and the subject of this year’s Chemistry prize). In the ‘silent’ region a different kind of polymerase activity is recruited. Instead of producing mRNA, this hypothetical polymerase produces transcripts that enter an RNAi-like silencing pathway.

单词本

英文 中文 英文 中文
aptly 恰当的 tremendous 非常的,了不起的
spectacular 壮观 contemplate 思量
inflation 膨胀 stunning 令人惊叹
speculating 猜测 nematode 线虫
lariat 套索 snare 圈套
inflate 使充气,使膨胀 hyphae 菌丝
interwine 缠绕在一起 staircage 楼梯
segregation 种间隔离 postulate 假设
wrap 包裹 polymenzation 聚合物
elaborate 精心,详细制定 exemplify 例证
glowing 发光 exclusively 仅仅,只,独占
provocative 挑衅 metazoan 后生动物
descendant 后人 sophistication 诡辩
flawed 缺陷 defective 有缺陷的
gloss 注释 ingestion 摄入
apparatus 仪器 tackle 抓住
lethality 杀伤力 viable 可行的
vexing 令人烦恼的 endogenous 内源性
Neurospora 链孢霉 fission yeast 裂殖酵母
digress 离题 deficient 匮乏
identical 相同的 precursor 先导
envisioned 设想 intact 完整无缺
polycomb 多梳 virtue of 凭借
surveillance 监控 nascent 初期

2.Gene Silencing by Double-Stranded RNA(Nobel Lecture)

Fire的演讲围绕着线虫的生物学试验来写的。比Mello的更侧重于某些人做了些什么。很严谨,把能列出的合作者都列在了slides上。 我觉得比Mello的有意思。尤其是他在演讲中提到了一些science/life-lesson说的很逗:

The science/life-lesson that one can draw from this is if you can do the experiment the way that seems most likely to be effective, do it just that way

A subsequent observation from Sam Driver and Craig Mello, yields the lesson if you can?t do the experiment the way that seems most likely to be effective, still do it

The lesson here, if you?re a postdoc or perhaps a graduate student, is to do experiments that your advisor would never condone or suggest.

在最后Fire也提到了RNAi在非植物界中的生理过程中扮演的角色究竟是什么还不清楚。如何在更多的动物(高等动物,人)中运用这种技术来治疗疾病也要有很漫长的路要走。

时至今日,我再回顾这个2006年的技术时不得不感叹生物领域的技术淘汰的真快,十年后,现在最火的是基因编辑(CRISPR/Cas9),RNAi终究还是停留在实验室里的工具。

CRISPR/Cas9 今后将会如何呢?拭目以待。

补充一个:如何看待RNAi疗法?

著作权归作者所有。 商业转载请联系作者获得授权,非商业转载请注明出处。 作者:化十 链接:https://www.zhihu.com/question/31136565/answer/56390149 来源:知乎

RNAi和ASO领域目前最好的公司是位于Boston的Alnylam,以及位于Carlsbad的ISIS;目前alnylam最接近FDA批准的药物是利用LNP递送siRNA治疗TTR Amyloidosis (FAP) (临床三期,目前业界对他的结果相当乐观,可能就在年内批准); ISIS有自己的核心ASO技术,有一个药物于2013年被批准,治疗hypercholesteromia,还有很多在2/3期临床。两个公司的pipeline里都有多个药物在未来3-5年有批准的可能。但是目前RNAi或ASO的大问题是只能做liver delivery,其他组织都不太成功。RNAi治疗癌症我觉得potency是一个问题,毕竟只是transient knockdown。RNAi刚出来的时候受到的追捧并不比今天的CRISPER/Cas9少,大家都觉得太牛逼;然而在发展的过程中出现了很多挫败,包括big pharma 的撤退等,因此目前该领域都是相对的小公司在develop。幸运的是过去2-3年里有明显的复苏迹象。我们如果再从历史记录看,这种过山车式的pattern也可以从之前的virus gene therapy的发展过程中看到。从这点来讲,我始终对CRISPER/Cas9保持一个谨慎乐观的态度:说到脱靶效应,CRISPER/CAS9面临的问题更多,临床转化的问题比RNAi更复杂。我个人判断RNAi在未来十年将有多个成药的例子(bottom line),但是能有多成功(upper limit),不太好说。

比较搞笑的是我看得这个版本的paper已经在杂志网站下架了,因为侵权,Fire并没有授权Cell Death and Differentiation 这个期刊来刊载他的演讲。这个期刊的文章中压缩了Fire的slides内容(少了几页)。 我已经不知道当时是谁(任课老师or同学)给我发的文献了,这篇绝版文献也找不到了,最后发张照片纪念一下。

Imgur

单词表过长,我在看这篇文献的时候头脑空白,所有一看不能想起意思的词都标注了出来。

单词本

英文 中文 英文 中文
disclaimer 免责声明书 rod
intriguingly 有取的事 virulent 剧毒的
nasty 严重的 preliminary 初步的
pathogen 病原体,病菌 infection 传染
inject 注射 interferon 干扰素
innate 天生的 fortuitous 偶然发生的
bellwether 领导者 albeit 虽然
disseminate 散布,传播 accolade 嘉奖
vehement 热烈 frustration 挫折
pierce 刺入 cuticle 外皮
manipulate 操作 enticing 诱人的,迷人的
aberrant 异常的 disruption 中断
explicit 明确的 construct 结构
propensity 偏爱 dampened 抑制,控制,减弱
accentuate 强调 tapestry 织锦,挂毯
concerted nature 协调一致性 antisense occlusion 反义阻断
contaminant 污染物 fortuitous 偶然
cognate 同源 sludge 泥浆
concocted 调制 far-fetched 牵强的
ingredient 组成部分,要素,因素 twitching 颤搐
agarose gel 琼脂糖凝胶 deliberately 故意的
smear 涂抹,模糊不清 potent 有效的
tenable 守得住,合理的 artistry 技艺
sundry 各式各样 homeostasis 动态平衡
in situ 原位 accentuating 强调
condone 容忍 deliberate 故意的,权衡,熟虑
soaking 浸泡 facilitate 促进
Trypanosome 锥虫 parasite 寄生虫
conspicuously 显著的 intensively 集中地
cadre 干部,骨架 sake 缘故
menace 威胁,恐吓 subvert 颠覆
attenuate 变细,减弱 apparatus 装置
circumvent 围绕 grasp 控制力
intricate 错综复杂 elucidating 阐明
plethora 过多,过剩 abrogate 废除
pristine 纯朴的 reassuring 使安心
hindsight 后见之明 recapitulating 总结,摘要
catchy 迷人的,易记的 incorporate 组成,包含,吸收
intrinsic 固有的,内在的 termini 目的地,界标
repertoire 指令表 presume 假定
diligently 勤奋的 deviation 背离
self-inflicted 自己造成的 phosphate 磷酸盐
surveillance 监控 remedy 疗法
hitch-hiking 免费搭乘他人之车 permeate 弥漫
choreograph 设计舞蹈动作 hone 磨光
conceivable 可想到的 aggregate 合计,总数
thermodynamic 热力学 eliminate 排除
viable 能养活的,可生产的 portfolio 投资组合
negotiating 谈判,交涉 thicket 错综复杂
trepidation 害怕 endeavor 尝试努力
dysregulation 失调 consortium 财团,组织
substantial 大量的 inadvertent 无心的
omission 省略    

今天看了两个短篇,大神Efron给science在2年半前写的贝叶斯理论在21世纪的作用Bayes’ Theorem in the 21st Century; Nature Methods有个系列讲统计显著性points of significance之中的Power and sample size

重新读完之后感到,统计和生物是密不可分的,做生物不懂统计,得到的结果就失去了指导实践的意义。

Efron大神的短篇主要讲贝叶斯是非常有用滴,从1763年至今,越来越有用,在上世纪50年代我们有了经验贝叶斯这个工具。 该工具在新世纪的大数据统计中焕发光彩。贝叶斯统计让Nate Silver在2012年美国总统大选中百分百预测了50个州的结果。 现在我们还可以结合FDR来用这个工具。当然,贝叶斯也不是万能的,我们总要有其他工具来检测我们的贝叶斯结果是否合理,就是频率理论。 Efron的文章中用词具有多样性,写作时应该学习。

关于显著程度

我们总是说某个假设检验结果显著,那么究竟怎么样才叫真正的显著呢?起码type I error 在0.05,统计功效(整体1减去type II error)在0.80。

如下图中的b所示,即便功效达到0.8,也有可能出现阳性预测率仅仅为0.64的情况。这是因为只有10%的假设是有效的(not null)

Imgur

用效应值\(d=(\mu_A-\mu_0)/\sigma\)可以来度量零假设分布和备择假设分布之间的差异。

理想情况下,我们希望在type I error 一定的情况下,power越大越好。 达到这个目的有两种方式,一种是用多样本集(参见下图a), 另一种是增大效应值d(下图b)。

Imgur

所以做试验要有尽量多的生物学重复,会适当减小统计功效太小的问题。

单词本

英文 中文 英文 中文
controversial 有争议的 oxymoron 矛盾形容法,逆喻
triumph 巨大胜利 sonogram 超声波图
identical 全等的 fraternal 兄弟的
identical twins 同卵双胞胎 fraternal twins 异卵双胞胎
odds 几率 pundit 评论员
impeccable 无可挑剔 violator 违犯者
parlance 腔调,说法,用语 fueled 激起
repetition 重复 dispute 辩论
interim 暂时的 corollary 必然结果
firmly 坚固的 bust 破产
fire hose 灭火水龙带 disparate 完全不同的
intensely 强烈的 jujitsu 柔术,柔道的旧称
coined 创造 statistical power 统计功效
bleak 暗淡的,没指望的 fiscal 财政
rigor 严格的 dire 可怕的
unethical 不道德的 postulate 假定
noncentrality parameter 非中心参数 reassess 再评估
effect size 效应值    

Single-Cell, Genome-wide Sequencing Identifies Clonal Somatic Copy-Number Variation in the Human Brain 这篇文章是讲单细胞CNV比较早的一篇。我都忘记为什么要看它了。

主要内容用半侧巨脑畸形和正常人的脑细胞,以及淋巴母细胞等细胞来做单细胞全基因组分析,看看扩增方法的噪声对CNV的影响。

单细胞扩增用的是MDA方法。还有一种单细胞处理方法是基于PCR的GenomePlex。

现有研究表明再神经细胞基因组中体细胞非整倍体比较罕见,但是体细胞CNV并不罕见。 文章中说明clonal somatic CNV在正常脑细胞和半侧巨脑畸形中都存在。 这个clonal somatic CNV的意思我不太明白,按文章的意思应该是一个细胞群体中都有的somatic CNV。

文章中有意思的一个地方是用microarray里的median absolute pairwise difference(MAPD)方法来比较拷贝数的噪声大小。 计算连续两个邻居bin上的log2 CN的绝对差异,并对所有bin取中位数,用这个数字代表噪声大小的分值。 计算结果说明MDA方法的噪声要比GenomePlex方法的大。

在后续研究中,他们只用MAPD<0.45的样本。单细胞采样会对测序结果产生较大影响,对单细胞低覆盖度的CNV分析可以用来评估样本质量。

样本之间的比较没什么有趣的东西,就不再赘述。

单词本

英文 中文 英文 中文
neuropsychiatric 神经精神 pathological 病理
euploid 整倍体 hemimegalencephaly(HMG) 半侧巨脑畸形
dysfunction 机能障碍 lymphoblast 淋巴母细胞
manifestation 表明,表示 prenatal 胎儿
malformation 畸形 defect 缺陷
epilepsy 癫痫 aneuploidy 非整倍体
tetrasomy 四体型,四倍体 magnitude 重要
compensate 补偿 fetus 胎儿
postmortem 死后 integrity 正直
intersample 采样 discrete 分离
integral 完整的 equivocal 模棱两可,意义不明
freeze-thaw 冷冻-融化 dicentric 双着丝粒
distal 末梢的 unperturbed 未扰动
query 质疑 bona fide 真实的
autism 孤独症 neuropsychiatric 神经精神疾病
nonetheless 但是,虽然如此 suspect 猜疑
intractable 难对付的 assay 测定

回顾一下看过的关于协同过滤,推荐系统的论文。

1.Application of Dimensionality Reduction in Recommender System – A Case Study

Knowledge Discovery in Databases(KDD) 中文是在已有数据中找寻知识的技术。

这个可以算是SVD方法做数据降维,协同过滤的一篇非常早的方法。看起来非常简单。

一般我们做推荐产品都是基于一个群体的,这个群体是个sub-group, 整个电商网站的用户会有很多,但是用户之间不一定都有很强的关系。 所以就需要寻找某个用户的邻近用户, 通过这些和他(她)很相似的邻近用户的一些行为来推测他(她)的行为(购买行为,喜欢购买的商品)。 邻居不一定是对称数量的,也就是A有5个邻居,而A的邻居B可能有20个邻居。

推荐系统做的最基本的两个事情:1.预测用户A对某个产品的喜爱程度;2.为用户A推荐一系列产品(用户A可能会购买的)。 在研究中遇到的主要问题:1.稀疏矩阵;2.大数据,计算慢;3.潜在同义词(商品)不好关联在一起。 关于稀疏矩阵在多说两句:有时Pearson nearest neighbor algorithm无法对某些用户推荐很多商品,这时因为存在reduced coverage问题。 如果相似度阈值取得较高,那么用户的邻居空间就会很小,所以在很小的邻居空间里可能就没有很多商品可以用来进行预测和推荐。

在这里本文作者用SVD方法主要解决了两个问题:1.找寻用户同产品间的潜在关系,使得我们可以计算某个用户对某个产品的喜爱程度。

  1. 降维,用低维空间代替高维“用户-产品”空间,在低维空间中计算邻居。

这个“用户-产品”矩阵\(R\)是\(i\)个用户对\(j\)个产品的打分。

为了预测,首先要对稀疏矩阵进行填充数值:就是把矩阵里的NA,填成相关的数值。 有两种方法:1.填充用户的打分平均值;2.填充商品的平均得分。试验结果表明用后者较好。 接下来要对数据进行标准化,也有两个可行方案:1.转换成\(z-score\);2.对于每个数值减去用户的平均值。试验结果表明用后者较好。

\[R_{norm}=R+NPR\]

其中NPR是个需要自己填充的矩阵,提供简单的非个性化推荐。

然后就进行矩阵分解得到低秩的近似矩阵:

  • 用SVD分解,获得\(U\),\(S\),\(V\)
  • 将\(S\)降维到\(k\)维
  • 计算\(S_{k}^{1/2}\),也就是\(S_{k}\)的平方根
  • 计算resultant matrices(结式矩阵):\(U_{k}S_{k}^{1/2}\)和\(S_{k}^{1/2}V_{k}^{'}\)

对于任意一个用户c以及产品p,可以得到预测的得分为:

\[C_{p_{pred}}=\bar{C}+U_{k}*\sqrt{S_k}^{'}*(c)*\sqrt{S_k}*V_{k}^{'}(P)\]

就写这么多,这篇文章后面有例子,一步一步写得很清楚,可以按照例子计算一次,基本方法就会了。

2.A Linear Ensemble of Individual and Blended Models for Music Rating Prediction 3.Novel Models and Ensemble Techniques to Discriminate Favorite Items from Unrated Ones for Personalized Music Recommendation

这2篇是KDD比较经典的一次比赛,内容就是协同过滤,预测用户对雅虎音乐的打分。做协同过滤最好都看看这篇文章,计算机和数学两方面写的都不错。 台大的多人小组差不多把能用上的方法都用了,人多力量大,这篇文章算是给大家讲解了各种方法解决这类问题的一个思路。

他们所用到的方法有(第一个task中):

  1. Matrix Factorization
  2. Restricted Boltzmann Machines
  3. kNN
  4. Probabilistic Latent Semantic Analysis
  5. Probabilistic PCA
  6. Supervised Regression

4.Hybrid Recommendation Models for Binary User Preference Prediction Problem 这篇还是KDD比赛的,比较了多种neighborhood-based model,latent factor model,content-based model加上SVD分解降维后的结果。 方法要比台大朴素,但效果也很不错。

另外之前说过的模型融合也是看了这几篇KDD文章来慢慢了解的。

5.Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model

这篇文章是在看文章4的时候提到的,主要就是看里面的公式(5) 潜在因子(latent factor)模型的公式。

recsyscode 里对文章中的模型有很好的代码实现。

单词本

英文 中文 英文 中文
unsubtle 咄咄逼人 depict 描绘
latent 潜在 semantic 语义
leverage 利用,运用,平衡 delineate 划定
sparsity 稀疏 alleviate 减轻缓和
retrieval 检索 syntactic 语法,句法
norm 范数 taxonomy 分类
blend 混合 stochastic 随机