摸索出大型数据集内的趋势
哪些表现的统计数据最能影响一位职业运动员的薪资? 在世界各地影响人类健康的最重要的因素是什么? 一种新的统计方法可通过在巨大的数据集内揭示未曾料到的关系来帮助回答这些问题。 这样的数据集在从基因组学到物理学到经济学等许多领域中正变得日益常见。 这些数据集有数百个变量,对人来说,在每一对变量中用人工的方法来寻找它们中的潜在关系的数目过于庞大。 David Reshef、Yakir Reshef及其同事如今描述了一种可在如此庞大的数据集中发现潜在重要关系的强有力的统计方法。
这种方法的基石是一种叫做“最大信息系数”或MIC的东西,这是在给不同类型的同样“嘈杂”的关系指派类似评分时的一种可在数据中发现范围极端广泛的关系类型的统计方法。 研究人员因此在无需任何先前的对他们在寻找何种关系类型有所了解的情况下可用它来检测由多种因素驱动的复杂模式。 MIC所依据的理念是,如果2个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格,使得大多数的数据点集中在该网格的几个单元格中。 通过搜寻这种“最适合”的网格,计算机可以计算MIC及一族可用来发现并描绘关系的相关的统计数据。 这一族统计数据被称作“最大的基于信息的非参数性探索” 或MINE。文章的作者将MINE与其它的方法做比较并显示,MINE更适合于作快速的数据探索。 他们用其来揭示4例真正的数据集中的熟悉的和先前未知的关系:世界卫生数据、棒球统计数据、酵母菌基因表达数据及一组人类肠道中细菌丰度的数据。 在一则相关的《观点栏目》中,Terry Speed对该研究进行了讨论,并回顾了相关系数的历史,该历史以1888年由查尔斯-达尔文的半表亲Francis Galton所发明的相关系数开始。
http://chinese.eurekalert.org/zh/pub_releases/2011-12/aaft-fto121211.php

个人笔记:MIC方法是根据mutual information(互信息)得到的,主要应用于在海量数据的条件下如何找寻一对对变量之间的关系。