On Your Mark

山中伸弥(Shinya Tamanaka)是我非常尊敬的科学家。当时在细胞生物学的讨论课上几个人一组做slides讲他的工作。这是我第一次接触实验生物学的内容。对于试验一窍不通的我，同微生物所的同学们一起读这篇文章，学到了很多东西。

这个实验过程很繁琐枯燥，感谢Takahashi和Yamanaka做了这么多工作，使得大家不需要再用几十个因子来测试诱导干细胞。

本笔记比较简陋，只记录当时学的一些东西和想法。

1.为什么选择了不少同tumor相关的因子？

因为肿瘤细胞同干细胞的相似性。

相似性：自我维持，无限传代，分化

2.CAG promoter is a combination of the cytomegalovirus early enhancer element and chichen beta-actin promoter

3.当loxP遇到Cre DNA重组酶时，会进行DNA学列的插入，复制，删除，使基因活化或失去功能。

4.iPS-TTF4和iPS-TTFgfp4克隆移植到裸鼠中形成了肿瘤。

5.Nanog可有可无（无用）。

单词本

英文	中文	英文	中文
differentiate	变异	subcutaneous	皮下的
spinal	脊髓	morphology	形态学
pluripotency	多能性	pivotal	关键
crystal violet	结晶紫(细胞核染色用)	passage	传代
mock	空白	loading control	阳性对照
neomycin	新霉素	dispensable	可有可无
concentration	浓度	retroviral	逆转录病毒
transduction	转导	scant	很少
rough	球形	teratoma	畸胎瘤
histological	组织学	cartilage	软骨
epithelium	上皮	trophoblast	滋养层
endoderm	内胚层	mesoderm	中胚层
fetoprotein	甲胎蛋白	tubulin	微管蛋白
nullipotency	无能性	vitro	体外
gonad	性腺	cheimeric	嵌合

重新阅读了RNAi的两位诺贝尔获奖者的演讲稿，应该算不上是论文研读，但也没别的类别可写，就放在这个目录下吧。

1. return to the RNAi world: rethinking gene expression and evolution

这是CC Mello的演讲稿，介绍了发现RNAi机制中的标志性事件。Mello有个女儿，是一型糖尿病患者。

In the year 2000 our daughter Victoria was born. In an unfortunate twist of fate, Victoria developed type-one diabetes in the fall of 2001. Suddenly, I had to learn how to inject into a human, my own daughter, for the first time. Ironically, human insulin, the same bacterially synthesized molecule that inspired me to pursue molecular biology, is now giving Victoria her very life. This experience has given me a new perspective on the importance of medical research. Edit, who is a wonderful nurse, is now taking care of Victoria, and serving as a diabetes counselor for newly diagnosed families.

Craig C. Mello - Biographical

演讲的前面提到研究Caenorhabditis elegans ( C.elegans ) 这种全身透明的线虫给科学试验带来了极大的好处。在1800-1900年代，德国进化生物学家奥古斯特·魏斯曼曾提出种质学说：

(1) there is a special particle, the biophore, for each trait; (2) that these particles can grow and multiply independent of cell division; (3) that both the nucleus and cytoplasm consist of these biophores; (4) that a given biophore may be represented by many replicas in a single nucleus, including the germ cell; and (5) that during cell division the daughter cells may receive different kinds and numbers of biophores through unequal cell division.

根据我们目前的知识，这个学说的观点（2）和（5）是不正确的，这个学说也是当时的一个假说。但是如果把这段话中的”biophores”替换成”siRNA”，考虑这个理论在一些traits中的情况，我们可以得到一下观点：

(1) there is a particle, containing siRNAs, for some traits; (2) these siRNAs can grow and multiply independent of cell division; (3) both the nucleus and the cytoplasm can contain the siRNAs; (4) a given siRNA may be represented by many replicas; and (5) that during cell division the daughter cells may receive different kinds and numbers of siRNAs through unequal cell division.

Mello说这就是当时我们对siRNA所了解的东西，现在看来奥古斯特·魏斯曼的观点在某些生物学现象中是成立的。我想到了于老师最崇拜的拉马克主义, 拉马克学说在表观遗传学中很多地方都成立。

接下来，他又具体介绍了一步一步发现RNAi作用机制的过程。

1.长双链RNA是在rde-1的帮助下作用于Small RNA的

RNAi和microRNA通路中利用不同的RDE-1蛋白家族的成员，聚集到Dicer上。正当Mello他们认为RDE-1在上游起作用时，其他研究组（Greg Hannon, Ji-Joon Song以及Leemor Joshua-Tor）发现Argonaute蛋白有一个同其他可以剪切RNA的蛋白类似的domain(结构域)。

These studies demonstrated that Argonaute proteins repre- sent the long sought ‘slicer’ activity (or the cop) that lies at the heart of the RNA-induced silencing pathway.

2.rde-1的功能

当然，Mello 他们也没闲着，继续研究RDE-1的功能。RDE-1家族的同源蛋白可能在通路的下游起到关键作用。同时他们认为在通路下游的Argonaute似乎没有完整的能起作用的RNA切割相关的核酶酸domain。

3.沉默pathway

Mello的研究发现Argonaute也同一些内源的沉默通路相关，包括转座子和转基因沉默通路。

4.染色质-RNA反馈通路

最有Mello在演讲中介绍了RNA同染色质的相互作用。

In the active conformation the regulatory region of the gene, called the promoter, is free of nucleosomes and is shown bound by the RNA-polymerase complex, (the complex that produces messenger RNAs and the subject of this year’s Chemistry prize). In the ‘silent’ region a different kind of polymerase activity is recruited. Instead of producing mRNA, this hypothetical polymerase produces transcripts that enter an RNAi-like silencing pathway.

单词本

英文	中文	英文	中文
aptly	恰当的	tremendous	非常的，了不起的
spectacular	壮观	contemplate	思量
inflation	膨胀	stunning	令人惊叹
speculating	猜测	nematode	线虫
lariat	套索	snare	圈套
inflate	使充气，使膨胀	hyphae	菌丝
interwine	缠绕在一起	staircage	楼梯
segregation	种间隔离	postulate	假设
wrap	包裹	polymenzation	聚合物
elaborate	精心，详细制定	exemplify	例证
glowing	发光	exclusively	仅仅，只，独占
provocative	挑衅	metazoan	后生动物
descendant	后人	sophistication	诡辩
flawed	缺陷	defective	有缺陷的
gloss	注释	ingestion	摄入
apparatus	仪器	tackle	抓住
lethality	杀伤力	viable	可行的
vexing	令人烦恼的	endogenous	内源性
Neurospora	链孢霉	fission yeast	裂殖酵母
digress	离题	deficient	匮乏
identical	相同的	precursor	先导
envisioned	设想	intact	完整无缺
polycomb	多梳	virtue of	凭借
surveillance	监控	nascent	初期

2.Gene Silencing by Double-Stranded RNA(Nobel Lecture)

Fire的演讲围绕着线虫的生物学试验来写的。比Mello的更侧重于某些人做了些什么。很严谨，把能列出的合作者都列在了slides上。我觉得比Mello的有意思。尤其是他在演讲中提到了一些science/life-lesson说的很逗：

The science/life-lesson that one can draw from this is if you can do the experiment the way that seems most likely to be effective, do it just that way

A subsequent observation from Sam Driver and Craig Mello, yields the lesson if you can?t do the experiment the way that seems most likely to be effective, still do it

The lesson here, if you?re a postdoc or perhaps a graduate student, is to do experiments that your advisor would never condone or suggest.

在最后Fire也提到了RNAi在非植物界中的生理过程中扮演的角色究竟是什么还不清楚。如何在更多的动物（高等动物，人）中运用这种技术来治疗疾病也要有很漫长的路要走。

时至今日，我再回顾这个2006年的技术时不得不感叹生物领域的技术淘汰的真快，十年后，现在最火的是基因编辑（CRISPR/Cas9），RNAi终究还是停留在实验室里的工具。

CRISPR/Cas9 今后将会如何呢？拭目以待。

补充一个：如何看待RNAi疗法？

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。作者：化十链接：https://www.zhihu.com/question/31136565/answer/56390149 来源：知乎

RNAi和ASO领域目前最好的公司是位于Boston的Alnylam，以及位于Carlsbad的ISIS；目前alnylam最接近FDA批准的药物是利用LNP递送siRNA治疗TTR Amyloidosis (FAP) (临床三期，目前业界对他的结果相当乐观，可能就在年内批准）； ISIS有自己的核心ASO技术，有一个药物于2013年被批准，治疗hypercholesteromia，还有很多在2/3期临床。两个公司的pipeline里都有多个药物在未来3-5年有批准的可能。但是目前RNAi或ASO的大问题是只能做liver delivery，其他组织都不太成功。RNAi治疗癌症我觉得potency是一个问题，毕竟只是transient knockdown。RNAi刚出来的时候受到的追捧并不比今天的CRISPER/Cas9少，大家都觉得太牛逼；然而在发展的过程中出现了很多挫败，包括big pharma 的撤退等，因此目前该领域都是相对的小公司在develop。幸运的是过去2-3年里有明显的复苏迹象。我们如果再从历史记录看，这种过山车式的pattern也可以从之前的virus gene therapy的发展过程中看到。从这点来讲，我始终对CRISPER/Cas9保持一个谨慎乐观的态度：说到脱靶效应，CRISPER/CAS9面临的问题更多，临床转化的问题比RNAi更复杂。我个人判断RNAi在未来十年将有多个成药的例子（bottom line），但是能有多成功（upper limit），不太好说。

比较搞笑的是我看得这个版本的paper已经在杂志网站下架了，因为侵权，Fire并没有授权Cell Death and Differentiation 这个期刊来刊载他的演讲。这个期刊的文章中压缩了Fire的slides内容（少了几页）。我已经不知道当时是谁（任课老师or同学）给我发的文献了，这篇绝版文献也找不到了，最后发张照片纪念一下。

Imgur

单词表过长，我在看这篇文献的时候头脑空白，所有一看不能想起意思的词都标注了出来。

单词本

英文	中文	英文	中文
disclaimer	免责声明书	rod	杆
intriguingly	有取的事	virulent	剧毒的
nasty	严重的	preliminary	初步的
pathogen	病原体，病菌	infection	传染
inject	注射	interferon	干扰素
innate	天生的	fortuitous	偶然发生的
bellwether	领导者	albeit	虽然
disseminate	散布，传播	accolade	嘉奖
vehement	热烈	frustration	挫折
pierce	刺入	cuticle	外皮
manipulate	操作	enticing	诱人的，迷人的
aberrant	异常的	disruption	中断
explicit	明确的	construct	结构
propensity	偏爱	dampened	抑制，控制，减弱
accentuate	强调	tapestry	织锦，挂毯
concerted nature	协调一致性	antisense occlusion	反义阻断
contaminant	污染物	fortuitous	偶然
cognate	同源	sludge	泥浆
concocted	调制	far-fetched	牵强的
ingredient	组成部分，要素，因素	twitching	颤搐
agarose gel	琼脂糖凝胶	deliberately	故意的
smear	涂抹，模糊不清	potent	有效的
tenable	守得住，合理的	artistry	技艺
sundry	各式各样	homeostasis	动态平衡
in situ	原位	accentuating	强调
condone	容忍	deliberate	故意的，权衡，熟虑
soaking	浸泡	facilitate	促进
Trypanosome	锥虫	parasite	寄生虫
conspicuously	显著的	intensively	集中地
cadre	干部，骨架	sake	缘故
menace	威胁，恐吓	subvert	颠覆
attenuate	变细，减弱	apparatus	装置
circumvent	围绕	grasp	控制力
intricate	错综复杂	elucidating	阐明
plethora	过多，过剩	abrogate	废除
pristine	纯朴的	reassuring	使安心
hindsight	后见之明	recapitulating	总结，摘要
catchy	迷人的，易记的	incorporate	组成，包含，吸收
intrinsic	固有的，内在的	termini	目的地，界标
repertoire	指令表	presume	假定
diligently	勤奋的	deviation	背离
self-inflicted	自己造成的	phosphate	磷酸盐
surveillance	监控	remedy	疗法
hitch-hiking	免费搭乘他人之车	permeate	弥漫
choreograph	设计舞蹈动作	hone	磨光
conceivable	可想到的	aggregate	合计，总数
thermodynamic	热力学	eliminate	排除
viable	能养活的，可生产的	portfolio	投资组合
negotiating	谈判，交涉	thicket	错综复杂
trepidation	害怕	endeavor	尝试努力
dysregulation	失调	consortium	财团，组织
substantial	大量的	inadvertent	无心的
omission	省略

今天看了两个短篇，大神Efron给science在2年半前写的贝叶斯理论在21世纪的作用Bayes’ Theorem in the 21st Century； Nature Methods有个系列讲统计显著性points of significance之中的Power and sample size。

重新读完之后感到，统计和生物是密不可分的，做生物不懂统计，得到的结果就失去了指导实践的意义。

Efron大神的短篇主要讲贝叶斯是非常有用滴，从1763年至今，越来越有用，在上世纪50年代我们有了经验贝叶斯这个工具。该工具在新世纪的大数据统计中焕发光彩。贝叶斯统计让Nate Silver在2012年美国总统大选中百分百预测了50个州的结果。现在我们还可以结合FDR来用这个工具。当然，贝叶斯也不是万能的，我们总要有其他工具来检测我们的贝叶斯结果是否合理，就是频率理论。 Efron的文章中用词具有多样性，写作时应该学习。

关于显著程度

我们总是说某个假设检验结果显著，那么究竟怎么样才叫真正的显著呢？起码type I error 在0.05，统计功效（整体1减去type II error）在0.80。

如下图中的b所示，即便功效达到0.8，也有可能出现阳性预测率仅仅为0.64的情况。这是因为只有10%的假设是有效的（not null）

Imgur

用效应值\(d=(\mu_A-\mu_0)/\sigma\)可以来度量零假设分布和备择假设分布之间的差异。

理想情况下，我们希望在type I error 一定的情况下，power越大越好。达到这个目的有两种方式，一种是用多样本集（参见下图a），另一种是增大效应值d（下图b）。

Imgur

所以做试验要有尽量多的生物学重复，会适当减小统计功效太小的问题。

单词本

英文	中文	英文	中文
controversial	有争议的	oxymoron	矛盾形容法，逆喻
triumph	巨大胜利	sonogram	超声波图
identical	全等的	fraternal	兄弟的
identical twins	同卵双胞胎	fraternal twins	异卵双胞胎
odds	几率	pundit	评论员
impeccable	无可挑剔	violator	违犯者
parlance	腔调，说法，用语	fueled	激起
repetition	重复	dispute	辩论
interim	暂时的	corollary	必然结果
firmly	坚固的	bust	破产
fire hose	灭火水龙带	disparate	完全不同的
intensely	强烈的	jujitsu	柔术，柔道的旧称
coined	创造	statistical power	统计功效
bleak	暗淡的，没指望的	fiscal	财政
rigor	严格的	dire	可怕的
unethical	不道德的	postulate	假定
noncentrality parameter	非中心参数	reassess	再评估
effect size	效应值

Single-Cell, Genome-wide Sequencing Identifies Clonal Somatic Copy-Number Variation in the Human Brain 这篇文章是讲单细胞CNV比较早的一篇。我都忘记为什么要看它了。

主要内容用半侧巨脑畸形和正常人的脑细胞，以及淋巴母细胞等细胞来做单细胞全基因组分析，看看扩增方法的噪声对CNV的影响。

单细胞扩增用的是MDA方法。还有一种单细胞处理方法是基于PCR的GenomePlex。

现有研究表明再神经细胞基因组中体细胞非整倍体比较罕见，但是体细胞CNV并不罕见。文章中说明clonal somatic CNV在正常脑细胞和半侧巨脑畸形中都存在。这个clonal somatic CNV的意思我不太明白，按文章的意思应该是一个细胞群体中都有的somatic CNV。

文章中有意思的一个地方是用microarray里的median absolute pairwise difference(MAPD)方法来比较拷贝数的噪声大小。计算连续两个邻居bin上的log2 CN的绝对差异，并对所有bin取中位数，用这个数字代表噪声大小的分值。计算结果说明MDA方法的噪声要比GenomePlex方法的大。

在后续研究中，他们只用MAPD<0.45的样本。单细胞采样会对测序结果产生较大影响，对单细胞低覆盖度的CNV分析可以用来评估样本质量。

样本之间的比较没什么有趣的东西，就不再赘述。

单词本

英文	中文	英文	中文
neuropsychiatric	神经精神	pathological	病理
euploid	整倍体	hemimegalencephaly（HMG）	半侧巨脑畸形
dysfunction	机能障碍	lymphoblast	淋巴母细胞
manifestation	表明，表示	prenatal	胎儿
malformation	畸形	defect	缺陷
epilepsy	癫痫	aneuploidy	非整倍体
tetrasomy	四体型，四倍体	magnitude	重要
compensate	补偿	fetus	胎儿
postmortem	死后	integrity	正直
intersample	采样	discrete	分离
integral	完整的	equivocal	模棱两可，意义不明
freeze-thaw	冷冻-融化	dicentric	双着丝粒
distal	末梢的	unperturbed	未扰动
query	质疑	bona fide	真实的
autism	孤独症	neuropsychiatric	神经精神疾病
nonetheless	但是，虽然如此	suspect	猜疑
intractable	难对付的	assay	测定

回顾一下看过的关于协同过滤，推荐系统的论文。

1.Application of Dimensionality Reduction in Recommender System – A Case Study

Knowledge Discovery in Databases(KDD) 中文是在已有数据中找寻知识的技术。

这个可以算是SVD方法做数据降维，协同过滤的一篇非常早的方法。看起来非常简单。

一般我们做推荐产品都是基于一个群体的，这个群体是个sub-group，整个电商网站的用户会有很多，但是用户之间不一定都有很强的关系。所以就需要寻找某个用户的邻近用户，通过这些和他（她）很相似的邻近用户的一些行为来推测他（她）的行为（购买行为，喜欢购买的商品）。邻居不一定是对称数量的，也就是A有5个邻居，而A的邻居B可能有20个邻居。

推荐系统做的最基本的两个事情：1.预测用户A对某个产品的喜爱程度；2.为用户A推荐一系列产品（用户A可能会购买的）。在研究中遇到的主要问题：1.稀疏矩阵；2.大数据，计算慢；3.潜在同义词（商品）不好关联在一起。关于稀疏矩阵在多说两句：有时Pearson nearest neighbor algorithm无法对某些用户推荐很多商品，这时因为存在reduced coverage问题。如果相似度阈值取得较高，那么用户的邻居空间就会很小，所以在很小的邻居空间里可能就没有很多商品可以用来进行预测和推荐。

在这里本文作者用SVD方法主要解决了两个问题：1.找寻用户同产品间的潜在关系，使得我们可以计算某个用户对某个产品的喜爱程度。

降维，用低维空间代替高维“用户-产品”空间，在低维空间中计算邻居。

这个“用户-产品”矩阵\(R\)是\(i\)个用户对\(j\)个产品的打分。

为了预测，首先要对稀疏矩阵进行填充数值：就是把矩阵里的NA，填成相关的数值。有两种方法：1.填充用户的打分平均值；2.填充商品的平均得分。试验结果表明用后者较好。接下来要对数据进行标准化，也有两个可行方案：1.转换成\(z-score\)；2.对于每个数值减去用户的平均值。试验结果表明用后者较好。

\[R_{norm}=R+NPR\]

其中NPR是个需要自己填充的矩阵，提供简单的非个性化推荐。

然后就进行矩阵分解得到低秩的近似矩阵：

用SVD分解，获得\(U\)，\(S\)，\(V\)
将\(S\)降维到\(k\)维
计算\(S_{k}^{1/2}\)，也就是\(S_{k}\)的平方根
计算resultant matrices(结式矩阵)：\(U_{k}S_{k}^{1/2}\)和\(S_{k}^{1/2}V_{k}^{'}\)

对于任意一个用户c以及产品p，可以得到预测的得分为：

\[C_{p_{pred}}=\bar{C}+U_{k}*\sqrt{S_k}^{'}*(c)*\sqrt{S_k}*V_{k}^{'}(P)\]

就写这么多，这篇文章后面有例子，一步一步写得很清楚，可以按照例子计算一次，基本方法就会了。

2.A Linear Ensemble of Individual and Blended Models for Music Rating Prediction 3.Novel Models and Ensemble Techniques to Discriminate Favorite Items from Unrated Ones for Personalized Music Recommendation

这2篇是KDD比较经典的一次比赛，内容就是协同过滤，预测用户对雅虎音乐的打分。做协同过滤最好都看看这篇文章，计算机和数学两方面写的都不错。台大的多人小组差不多把能用上的方法都用了，人多力量大，这篇文章算是给大家讲解了各种方法解决这类问题的一个思路。

他们所用到的方法有（第一个task中）：

Matrix Factorization
Restricted Boltzmann Machines
kNN
Probabilistic Latent Semantic Analysis
Probabilistic PCA
Supervised Regression

4.Hybrid Recommendation Models for Binary User Preference Prediction Problem 这篇还是KDD比赛的，比较了多种neighborhood-based model，latent factor model，content-based model加上SVD分解降维后的结果。方法要比台大朴素，但效果也很不错。

另外之前说过的模型融合也是看了这几篇KDD文章来慢慢了解的。

5.Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model

这篇文章是在看文章4的时候提到的，主要就是看里面的公式（5）潜在因子（latent factor）模型的公式。

recsyscode 里对文章中的模型有很好的代码实现。

单词本

英文	中文	英文	中文
unsubtle	咄咄逼人	depict	描绘
latent	潜在	semantic	语义
leverage	利用，运用，平衡	delineate	划定
sparsity	稀疏	alleviate	减轻缓和
retrieval	检索	syntactic	语法，句法
norm	范数	taxonomy	分类
blend	混合	stochastic	随机

On Your Mark

Never give up, Dream big

iPS技术

单词本

RNA干扰（RNAi）的世界

单词本

单词本

贝叶斯理论在21世纪的作用，统计功效与样本大小

关于显著程度

单词本

用单细胞基因组测序来检测人脑中体细胞拷贝数变异

单词本

协同过滤

单词本

版权声明

近期文章

分类目录

良师益友