新博客主题:书签
在网站首页加了一个新的连接:书签,是我做的类似于Product Hunt的博客主题, 还没有做外观的设计,主要实现的是每个post的连接都指向一个外部网站。 这个子页面主要用来记录我随手在网上看到的有用信息,以及我对这个信息的简要评论, 如果今后有时间对这个信息写了长篇博客,那么这个连接就会在书签中消失。
度量距离时对数据做不做比例归一化(scale)
当我们处理数据时时常会遇到是否要对数据进行比例调整(scale)的问题,那么究竟应不应该做比例调整要取决于数据的实际含义。
前一段时间为了弄明白Gower Distance在网上查找了一个slides1,里面介绍了很多常用距离,并且简单解释了数据比例尺度调整的问题。
- 对于4个人的年龄和身高,有数据
Person | Age [years] | Height [cm] |
---|---|---|
A | 35 | 190 |
B | 40 | 190 |
C | 35 | 160 |
D | 40 | 160 |
画图可以看到A、B比较近,C、D比较近。
有些地区喜欢用feet来作为身高的度量单位,如果换成feet,数据会变成
Person | Age [years] | Height [feet] |
---|---|---|
A | 35 | 6.232 |
B | 40 | 6.232 |
C | 35 | 5.248 |
D | 40 | 5.248 |
画图的话可以看到此时A、C比较近,B、D比较近。
那么究竟哪两个人的数据比较接近呢?
我们来做一下scale,
Person | Age [scaled] | Height [scaled] |
---|---|---|
A | -0.87 | 0.87 |
B | 0.87 | 0.87 |
C | -0.87 | -0.87 |
D | 0.87 | -0.87 |
结果发现这四个人距离差不多,分不出子类。
- 在来看另一种情况
Object | x1 | x2 |
---|---|---|
A | 13.3 | 38.0 |
B | 12.4 | 45.4 |
C | -122.7 | 45.6 |
D | -122.4 | 37.7 |
有四个观测,分别知道它们的变量x1和变量x2数值,在R中scale(dat)
会发现四个观测分散很远,如果直接画图,就发现其实A、B距离近,C、D距离远。
如果x1和x2分别代表经度和纬度,那么这个数据就不应该标准化,A、B两个地点本来就是距离近,标准化后它本身的特点就不存在了。
到底用不用归一化呢?
1.做不做归一化,要知道
- 变量取值范围大,这个变量就在计算距离时权重大
- 距离的远近是由归一化后的数值决定的,不同的归一化,最后求出的距离也不一样
- 归一化对每个变量赋予同样大的权重
- 另一种可行方法是重赋值权重
2.这些情况下必须归一化
- 变量单位不同
- 我们自己期望属于要有相同的权重
3.这些情况下不要归一化
- 变量单位相同
4.一般情况下
- 请归一化
Reference
-
https://stat.ethz.ch/education/semesters/ss2012/ams/slides/v4.2.pdf ↩
看过且收藏的一些电影
整理硬盘,要删除点东西,一看电影都这么占空间,所以就决定删了电影,在删之前先小结一下。
说收藏其实不太准确,因为在国内看电影绝大多数是网络盗版,没有付费,收藏也不是正经的买碟,下载了别人上传的内容。
美丽心灵
今年最唏嘘的事情就是纳什在领完奖回家时做出租车被撞死了。
在看美丽心灵这部片子时,感受最大的特点是——完全没写什么事实。我是先看完纪录片和别人的记事报道,才看的这部电影,看了两三次,才完全看完。
在光辉的外表下,纳什只是一个(自愈)的精神病人。当然,更痛苦的是他的二儿子,也得了这种病,并且完全没有好的迹象。
具体的可以去看玑衡写的《我所认识的约翰纳什》,以及纳什的纪录片。
我特别有感触的是在纪录片里,他妻子说自己的儿子也有这种病(需要人照顾,不能完全自理),但是现在她还能照顾孩子,如果纳什和她不在了,她的孩子会怎么样?
结果,她和纳什就一起突然离世。
美丽心灵是一部奥斯卡获奖影片,但是它内容描写的太美好,而现实往往是非常残酷的。一人得精神疾病,会影响整个家庭,不可逆的。
并且不是说数学家都是mad and crazy,中国宣传了陈景润之后,数学家的形象明显都变味了,结果美国宣传了一个“疯子”,这数学家的形象什么时后才能在人们的心中变得正常起来。-_-|||
还有就是,没机会在他活着时见面了,克里克也早没了,现在还想见的就只剩下沃森和Le Guin,不知道今后有没有机会。
我想亲自见面的前辈贤者都在不断变成先贤,而我也在不断变老,就是这样,完成于2015年还剩下2个月的10月31日。
黑客帝国
硬盘里的黑客帝国三部曲我看了又看,感觉这是我看过的最好看的片子(说道这里,我想到了前几年特火的阿凡达,我完全没觉得它做的又多好,各种外星生物和殖民的创意感觉游戏中都已经出现过了)。
黑客帝国的逻辑构思是这部片子最大的亮点,第一次看之前,我只看过它的几个动画版,所以对整部剧没有任何了解,看了正片之后觉得这真是厉害:人被当作燃料,思维进入计算机的世界继续存活,所有人都变成了一串代码,由更高级的计算机人工智能系统控制,程序里有bug,会导致异常的事件和人物的出现,计算机人工智能系统为了维护统治,而不断的捕杀这些想知道真相的人。
这部片子引出了一句经典的网络用语:脑后插管
。看完后估计大家都会思考是不是我们现在所存在的空间就是一个Matrix。
也就是宇宙。当然这个说法是毫无科学根据的。
说个体外话,我觉得逃出太阳系没准是未来人们必须要完成的生存任务。
那么宇宙的边界,宇宙大爆炸前没有时间没有空间,爆炸后延伸出来的物质究竟是向哪里扩散?
扩散的边界会是什么样子?理解这些问题会帮助人类向太阳系外前进。
另外这个三部曲,我实在是舍不得删除。;)
但是我对导演兄弟/兄妹/姐妹 实在是理解不能_(:з」∠)_
。
降世神通:最后的气宗
我没看过动画,偶然间看的这部片子,特效还不错(我看的少,所以评价一般都很高),里面的武术动作也比较精彩。 但是网上整体评价不高,我也不知道怎么回事,我就看个热闹。
基因表达与spiked-in
Revisiting Global Gene Expression Analysis这篇文章在刚发表的时候我们实验室就研读过,但是当时由于自己关注不够多,并且自己处理的数据进行了比例转换所以不涉及这个问题。
但是前一段时间又看了一遍这篇文章,我们都知道在single cell RNA表达分析中一般都要用spiked-in来解决normalization的问题。
但是也有很多单细胞表达量的分析没有做这个分析。
由于同第一次看这篇文章已经有很久了,我早已忘记spiked-in主要应用在肿瘤的研究中,所以现在觉得只要是肿瘤的研究都要做这个分析,才能准确确定表达量。
今天我开始有时间好好读一遍这篇文章,发现文章中提到的表达量normalization用到的两个样本high c-Myc和low c-Myc都是同样的细胞数量,所以对于bulk数据,这个方法好像没法用。
Encode已经把spiked-in当作标准流程了,新上传的RNA表达量数据有些已经带有spiked-in了,我需要在去检查一下究竟那些数据是单细胞(定量细胞的)还是bulk(组织)的大致看了一下,好像tissue的就有
。
现在简单复述一下这篇文章的内容。
- 首先以往研究中发现c-Myc高的细胞中很多基因的表达水平整体提高,整体的RNA水平要比c-Myc低的细胞高出2-3倍。 这个现象引出问题:以往的标准化方法没有考虑到整体表达水平的升高和抑制,这样会导致解读RNA表达量数据出现问题。
-
如上图所示,AB图中两个细胞的RNA水平一致,所以标准化后可以看到基因B和E表达量是明显升高的。 对于CD图中的两个细胞中的一个细胞表达了比另一个细胞多1到2倍的RNA,如果还用正常的标准化方法可以看到A、G、I这三个基因表达量上升。 而D、E、F这三个基因表达量下降。但实际情况呢,其实这些基因基本上表达量都升高了。
这个标准化产生的问题是基于这样一个假设,即我们认为每个细胞的所有mRNA表达水平是一致的。
-
进一步说明我们常用的分析方法将这种表达量的差异看作技术误差,也就是理解为噪声, 并希望在研究中对于不同的样本或实验之间的
表达水平
要有同样的中位数,或均值,或在一个范围内的表达量分布要基本一致。 -
为了得到可靠的基因表达量,文章中采用spiked-in 标准,加入表达量基本确定的RNA作为参照。 他们分别在Microarrays,RNA-seq以及Nanostring中做了实验,加入spiked-in RNA的表达谱变化更接近真实情况。 另外,做实验时严格统计了c-Myc高和c-Myc低的细胞数目1在同等细胞数目的条件下进行的RNA表达情况的分析。
-
当无法具体统计细胞数目时怎么办? When cell counting may be problematic, as for expression experiments from solid tumors or tissues, DNA content may be used as a surrogate if ploidy and DNA replication profiles are also characterized to prevent the introduction of a DNA content-based artifact.
-
以前的全基因组表达量数目中有多少我们已经解读错了? How prevalent is misinterpretation of genome-wide expression data due to the assumption that cells produce similar levels of total RNA? The answer is likely related to the prevalence of regulatory mechanisms that globally amplify or suppress transcription.
最后对于RPKM的标准化可以用R包affy中的loess.normalize2来实现。说白了就是做回归平滑的时后可以选取所有的样本点(老方法),或者只选取一部分样本点(spiked-in的RNA,新方法)。
备注:
长寿很重要
对,我说的就是今年诺贝尔生理及医学奖。恭喜屠呦呦和另外两位获奖者。
今年的奖偏向临床医学,希望以后能有更多振奋人心的临床应用获奖。
在说个无关的感悟,个体化医疗正在步入人们的生活,在身边的人谈论这个的越来越多,美国吹什么风,就指导了国内近几年的新产业方向。
我这篇文章的英文链接是临床应用,结合前一段时间同未来医生的谈话,这个方向是十年后能成真的一个深入人们生活的平常事件,希望自己能持续关注。
—-20151006—–
中医与西医
补充一些内容,由于这个奖颁给了Tu 并且同中医药有一定的关系,现在对于中医西医有没有用的争论又开始了。
聪明的中国和印度记者在诺贝尔奖的记者会上也问了这个问题,我觉得果壳网给的翻译能说明问题了(上网不便我没有找原文)
另外这个奖不代表中医的胜利或者西医的胜利,而是现代医学的胜利。 中西医都有传统医学,都有愚昧不科学的地方,这个工作是发掘传统医学中药物的关键成分是哪个化合物并提取出来。
废医验药
不是一句空话,要废除愚昧的医学理论,验证传统草药的真正有用成分,这才是传统中国医药在新世纪焕发光辉的办法。是一条可行之路,必经之路。
诺奖推荐
这个要感谢国外华人华侨学者的强力推荐。这次两个得奖内容都是帮助贫困地区的人们摆脱疾病的困扰。 乍一看挺不搭边,有点拼凑。
这个工作与当时的国内环境,Tu究竟是不是重要参与者
是的。当时由于集体主义观念浓厚,发论文都不能署名,最后闹这么多问题出来也的确有中国特色。