模型融合
model ensemble /aggregation techniques(201208环球科学)
我对此的理解还比较浅显,最早知道这个东西还是今年看到了一个PPT,主要理解就是单个模型的结果不够理想,如果想得到更好的结果,需要把很多单个模型的结果融合在一起。
那么究竟是怎么个“融合”呢? 这个问题之前一直没搞明白,最近在用随机森林方面的方法来处理数据,顿悟出,模型融合可以想像成“再次的机器学习过程”。已知模型A、模型B、模型C,测试数据输出的结果分别为a,b和c,用训练数据通过模型输出的训练数据预测结果为a1,b1和c1。我们可以将a1,b1,c1的数据带入到训练数据中再次训练,得到更加贴近真实结果的模型,再用这个模型训练测试数据结果a,b和c。得到的结果会比一次训练的好。(这其实也就是个多层神经网络的思想,但是与神经网络不同的是:每次的输入数据是“上次的输入数据”+“上次的输入结果”)。
当然,方法多种多样,“上次的输入数据”+“上次的输入结果”是一种输入数据类型,“上次的输入结果”也是一种输入数据类型,融合所用的方法也很多,直接用机器学习里的各类方法,或者用统计回归,皆可。一切皆有可能。
MIC——最大信息系数
摸索出大型数据集内的趋势
哪些表现的统计数据最能影响一位职业运动员的薪资? 在世界各地影响人类健康的最重要的因素是什么? 一种新的统计方法可通过在巨大的数据集内揭示未曾料到的关系来帮助回答这些问题。 这样的数据集在从基因组学到物理学到经济学等许多领域中正变得日益常见。 这些数据集有数百个变量,对人来说,在每一对变量中用人工的方法来寻找它们中的潜在关系的数目过于庞大。 David Reshef、Yakir Reshef及其同事如今描述了一种可在如此庞大的数据集中发现潜在重要关系的强有力的统计方法。
这种方法的基石是一种叫做“最大信息系数”或MIC的东西,这是在给不同类型的同样“嘈杂”的关系指派类似评分时的一种可在数据中发现范围极端广泛的关系类型的统计方法。 研究人员因此在无需任何先前的对他们在寻找何种关系类型有所了解的情况下可用它来检测由多种因素驱动的复杂模式。 MIC所依据的理念是,如果2个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格,使得大多数的数据点集中在该网格的几个单元格中。 通过搜寻这种“最适合”的网格,计算机可以计算MIC及一族可用来发现并描绘关系的相关的统计数据。 这一族统计数据被称作“最大的基于信息的非参数性探索” 或MINE。文章的作者将MINE与其它的方法做比较并显示,MINE更适合于作快速的数据探索。 他们用其来揭示4例真正的数据集中的熟悉的和先前未知的关系:世界卫生数据、棒球统计数据、酵母菌基因表达数据及一组人类肠道中细菌丰度的数据。 在一则相关的《观点栏目》中,Terry Speed对该研究进行了讨论,并回顾了相关系数的历史,该历史以1888年由查尔斯-达尔文的半表亲Francis Galton所发明的相关系数开始。
http://chinese.eurekalert.org/zh/pub_releases/2011-12/aaft-fto121211.php
个人笔记:MIC方法是根据mutual information(互信息)得到的,主要应用于在海量数据的条件下如何找寻一对对变量之间的关系。
今天你Git了没有?
最近开始使用Git ,根据wikipedia上的说法,它是一个分布式版本控制/软件配置管理软件。对于我这种计算机白痴来说,它是什么根本不重要,重要的是在我项目有需求的时候可以使用这个工具。也就用它建立个GitHub上的主页而已,在GitHub上托管一点代码而已。我一直没有在博客上装代码高亮的插件,如果需要展示代码,就直接给个链接到GitHub上去看。
不过做归做,Git和GitHub的相关内容还是要学习一下。推荐一些内容:如何高效利用GitHub 、Git简易指南 、Gitmagic (一本介绍Git的书)
可视信息
可视信息将是博客里的一个新的分类目录,也是唯一一个我想要做一点介绍的分类。目前数据可视化和信息图是非常热门的内容,比较著名的国内博客和相关网站有视物致知和dataV。去年参加的活动中了解了很多关于数据可视化的内容,再加上之前自己也做过一些极为不成熟的信息图 -_-
,所以想开个专栏介绍一下数据可视化的方法、信息图绘制创意,就我个人感兴趣的方面进行数据可视化图、信息图的创作。我本来想给这个分类目录取个霸气一点的名字:例如图说天下、图览全局之类的,但总感觉有这样的名字有浓重的营销微博风格,遂放弃之。
数据可视化的图形有很多种:地图、时间轴、气泡图、热力图、标签云、散点图、流程图、雷达图等 在实现技术上有:JavaScript、Flash、HTML5 Canvas、Processing、SVG、Google MAp API、R(以及其他计算软件绘图包)等
想要有更加直观的认识可以去dataV的可视化案例里看看,但是它列出来的一些图形的名称,不一定标准,例如“成交走势(CatTrends)”标注的是堆栈图,更确切的说应该是Stream Graph(挤压变形的堆积面积图)。
关于R的做图,可以读谢益辉的现代统计图形,不过这书从2010年就开始有消息,结果到现在还没有出版,2年了不知又有多少新的R软件图形包出世,这得再往书中增添多少内容啊。麻烦赶紧出版吧 ;)
二代测序分析常用软件
已经开始接触实战了,用过的软件如下:
2.call peaks MACS
3.格式转换 bedtools
仅作存档使用,预知具体用法请看今后分解。