有一门奇葩的课,主要是讲述我遇到的各种各样奇葩老师或者奇葩教学内容的系列文章。是系列就意味着我遇到过不止一门课程是让我由此种想法的,并且我主观认为这些任课老师的教学方式令人堪忧。

今天要介绍的是Biostatistics and Experimental Design

meta-analysis在国内叫做荟萃分析或元分析,是个统计方法,比较新,我从没听说过,问了统计专业的同学也不清楚 。就是这样一个大家都没有接触过的分析方法,被老师用来作为讨论课的一个专题,并让大家学习做Slide介绍。

meta-analysis(我认为)是将对同个问题不同条件下的实验结果进行标准化,之后分析哪个结果准确可靠性高。追溯其最早的实际应用,是统计学家Karl Pearson所作的对某种疫苗有效性的检测。但meta-analysis这个东西是上世纪50~60年代兴起的,70年代才有了这个“官方”的名字。meta-analysis中的有些features的选择是主观进行的,所以我感觉这个分析的可靠性其实并不高。

说课程奇葩,主要是大家都没听说过的内容,给了1篇泛泛的综述,就让我们去做展示。整个Slide展示的过程中,有不少认识的缺陷,但是大家都没听说过,也就不好讨论出什么结果,老师呢,其实自己也没接触过这个方面,没有什么指导。既然这样,那做这个演讲展示的意义何在?纯做生物实验的学生统计知识有限,做数据分析纯用软件,meta-analysis中有许多需要自己选择定义的features,没有统计学专业同学的帮助,根本就无从上手。

简而言之:学以致用,然无了解者,何谓之学?何以用之?

(学以致用这个观点其实也有很多人有不同的意见,我觉得学以致用不是不追求“理”上的问题,而是突出“用”,所学必有用。这课上的累,不过还是记住了这个分析,以后闲聊,也能让听者有“虽不明,但觉厉”的感觉 :)


最近(3月份的事情了,在草稿箱里躺到现在[现在已经是12月份了-_-b])在看MIC的paper,它主要讲述的是关于最大信息相关性的定义和计算方法。它基本上是根据非参数统计的内容进行计算的,而非参数统计是在不知道样本分布的情况下进行统计量的计算。由此我想到在统计方面是不是世界上万物都有相关性,都可以计算相关性?

回答这个问题其实很简单,只要有可以统计的数据,那么就可以找到相关性(例如用回归分析的方法)。但就统计方法而言,什么是合适的统计变量,统计结果是否具在实际问题中显著性,都是因不同的数据而有所不同的。


弄清楚研究的生物问题最重要!!!

——记同stanford统计教授的谈话有感

关注大师的言行:今天算是看到了国外大师的真正面貌,由于所里安排的比较轻松,下午2点到5点每小时一个组的成员来找他交流,据导师说要是去个清华统计系,估计一天得8个小时都有小组要排队交流。看到大牛如此轻松的听导师讲自己的工作,并不时提出自己的问题,思路非常活跃,最后根据自己的经验来指点项目的不足,也谈的头头是道。

跟随大师的举动:大牛说了啥,说咱的项目研究的问题不明确,没有看到背后的生物学意义。这可是最严重的问题,很有可能之前的工作围绕的重点都是错误的,需要重新思考整个项目的想要解决的问题和方向。大牛的思考能力很强,一个新的题目,只听几分钟的报告就可以做大领悟其中的原理,找到不足。这种能力是长期锻炼的结果,需要经过时间的磨砺才能形成。

和大师一并修行:暂无任何希望。

领会大师的意境:做但尚不能成。

成为真正的大师:梦想。


#欢迎使用 WordPress 3.3.2#

###感谢升级到最新版本!使用 WordPress 3.3.2 不仅可以让男生更帅,女生更美、改良人格,还可以大幅提升您的网上发布体验。诶,开玩笑的,其实她只能提升您的使用体验,但是光这一点就很不错了 :)###


没啥技术含量,最近频繁使用,仅做存档,持续更新。

###1.剔除重复行###

uniq filename

效果

原始文档: 4 4 5 5 5

使用后: 4 5

###2.分割文件###

split -500 filename

效果

将文件每500行分割成一个子文件

###2.1.grep分割文件###

grep -w 'abc' filename

效果

按照关键词abc,提取出其所在行的内容

###3.按某列排序并提取某一行###

cat filename | sort -k2nr |awk '{FS=","; print \$1"\t"\$7}' >newfilename

效果

按第二列排序,并提取第一列和第七列的值,输入到指定文件中