坑了同学——机器学习与应用
破折号后面的是主要内容,破折号前面的是次要内容。
首先今天去听了机器学习与应用的研讨会(MLA 2011 - Chinese Workshop on Machine Learning and Applications),这个消息是从Resys China那边知道的。之前还在组里向导师推荐,导师又把这个消息转发到了整个组,以及某些合作伙伴那里。我还告知了其他组的老师和整个班级的同学。因为下周就期末考试了,最后只有一个同学和我同去。结果听完感觉有点把她给坑了,还不如自己一个人去,省得人家一天没复习也没写作业并且晚上还要做别的活动整天都耽误了,在此再次深表歉意 m(_ _)m
为啥这样说呢,主要是这个活动是冲着Michael Q Zhang去的,但由于这次会议主要用中文做报告,Michael的生物知识学的都是英文的,把生物方面的名词翻译成中文之后在讲出来,估计是把他难为怀了,整个过程讲得不太流畅。内容方面,前面是基础知识,我们听着都明白,在座的其他专业的同学都听不明白,后面将应用,没有说具体的机器学习的方法只是简单的提了一下,都是介绍实验室做过的一些工作以及今后的研究方向(有价值,对于我来说就是了解了做生物信息的人会去做哪些工作)。到最后由于时间太紧,提问只有一个名额,我们这边还以为要举手,结果没人理,被一个问何时开概率图模型课程的同学抓到了机会……在此再次再次对同学深表歉意 m(_ _)m
介绍一下整天的内容。
上午首先报告是《多视图在利用未标记数据学习中的效用》,在半监督学中的主要方法是:generative methods、SV3Ms、Graph-based methods、Disagreement-based methods。南大老师做的一些工作表明大家都很熟悉的co-training过程中数据的“多视图”并不重要。co-training问题的主要特点在于:条件独立性、弱独立性、expanson、large difference。他们还定义了一个“完美图”的概念——一个图上所有样本都在同一个class里,说明这些样本是属于同一类的。主动学习主要有两种情况:realizable(能找到分类器、有完美划分)和non-realizable(对噪音信息不知道)。综合半监督学习和主动学习的方法在计算某些问题时是很好的方法。
第二个报告:《style adaptive pattern field classification》,主要是模式识别的内容(会议从这里开始偏向应用,机器学习的内容越来越少)。介绍了style constraint in PR(模式里的样本服从统一分布)、statistical foundation(很多问题是非独立同分布的)、一些历史性工作(seoarating style and content with bilinear model\gaussian style mixture model\style context with second-order statistics)。在类别数很大的情况下所用的方法是:adaptation by style transfer和bayesian field classification with style normalization
第三个报告是微软的关于enabling knowledge driven computing,是关于文本的机器识别理解的。主要通过不同的文本例子解释在机器学习中要注意的问题如何从concept到instance,从instance到concept。还讲了explicit semantic analysis。
下午第一个报告是关于心智成长的,是由北交的一位老师介绍国外的实验室做的工作,文章是How to grow a mind: Statistics, structure and abstraction。这篇文章有75个参考文献,其中40个都是自己实验室的结果,这要是在国内的期刊上是不可能出现的 。但是这个实验室的确是在认识科学和心理学方面的权威, 独创成果很多。对于心智成长问题的主要认识有三个阶段:第一阶段是nativist ,转换到计算机领域就是符号逻辑;第二阶段是associationist,转换到计算机领域就是learning over the unstructured forms of knowledge;第三阶段,也就是这个实验室的看法是constructivism or “theory theory”,兼有前面两者的内容。主要模型是bayesian models(层次贝叶斯方法)。先验的样子是怎样的?先验本身是怎么来的?这些问题的讨论都在文章中提到。
下午第二个报告是高维多视图数据的广义相关分析,我唯一有点听明白的内容(看到slide中的那么多公式实在是太亲切的T_T)。对于数据的分析,很多时候要做的是相关性分析。数据的种类很多(主要是网络信息数据方面,例如图的tags和内容),有的数据是一一对应的x1->y1,…,xn->yn,被称为配对问题。但是有的数据是部分对应的x1->y1,x2->y2,…xk->yk,x(k+1)不对应到y(k+1)…后面的都不对应,被称为不配对问题。配对分析和半配对分析有很多方法,例如CCA。南京航空航天大学的陈松灿教授介绍了半配对无监督、半配对有监督、半配对半监督的相关分析方法,如何改造最初的式子,如何从配对转到半配对的。一些有用的方法LCA\PPLCA\semiCCA。
之后就是Michael Q Zhang的machine learning in bioinformatics,在海量信息中找寻生命遗传的规律。提到的具体模型是HMM隐马尔可夫。主要学要生物信息学家解决的问题是structure和function之间的对应关系。以前做的工作测序yeast全基因组,找它的共表达序列,寻找调控这些基因表达的元件位置。有假阳性干扰的时候也可用机器学习的方法排除这些干扰。概率图模型是一类重要的方法。生物信息学研究的一个方向是建立生物体内的调控网络,例如神经调控网络,更加系统的研究序列-结构-功能之间的关系(就是系统生物学啊)。
最后一个讲座没有听,时间太晚,回校之后还有很多事情要做,有点可惜,但也很没办法,每年11月初的一周举办的这个活动正是研一考试的开始阶段。
总结一下,概率图模型是我需要学习的一类方法,生物学中还有很多很多问题需要我们用信息学的手段加以解决,广义相关分析可以学习一下,看着slide上的公式推导很感兴趣。
书评:《DNA:生命的秘密》
《DNA:生命的秘密》——现代生命科学发进程史科普书籍。
一杯咖啡所含对啮齿动物具有致癌作用的物质,比你一年吸收的农药残留物还多。如今一杯咖啡里还有1000种化学物质还没经过测试。这只是说明我们具有双重标准:如果是合成物质,我们就怕得要命;如果是天然物质,我们就毫不在乎。
There are more rodent carcinogens in one cup of coffee than pesticide residues you get in a year. And there’s still a thousand chemicals left to test in a cup of coffee. So it just shows our double standard: If it’s synthetic we really freak out, and if it’s natural we forget about it.
也许你不知道威尔金斯和富兰克林,但你一定知道沃森和克里克——两位二十世纪伟大的生物学家。生命的秘密一书正是由尚在世的沃森和安德鲁·贝瑞(Andrew Berry)共同完成。
最初发现这本书是在网上,有人推荐,买回来一看,果然是普及生命科学的好书(排除中文版的所有翻译错误和中文语序问题)。该书简述了从孟德尔遗传定律开始到当今的基因疗法、转基因植物等100年间,生命科学领域(确切地说是遗传、分子领域)的新发现,新技术、伴随这些新事物出现的无尽争论,以及100年间我们人类自身对生命看法的不断变化。
新发现:染色体、基因、alpha螺旋、DNA结构、RNA结构……
染色体早在1884年就已经被发现,但是当时没有人知道这和遗传有什么联系。直到二十世纪初,染色体和遗传物质才画上等号,这就是Sutton-Boveri染色体遗传理论——遗传因子位于细胞核内染色体上。这将孟德尔遗传规律与细胞学研究结合起来。摩尔根和他的果蝇们奋斗了几十年时间,为我们揭开了基因连锁互换定律,验证了孟德尔的分离和自由组合定律,也验证了Sutton-Boveri染色体遗传理论。生命究竟是什么?薛定谔认为我们可以从储存与传递生物信息的观点来思索生命,染色体只是生命信息的携带者。这些观点发表在他的著作《What is life?》里,他的这本小册子鼓舞了一批又一批青年投身分子生物学的研究中。二十世纪但是年代,科学家发现了组成DNA分子的四种不同碱基(AGCT),但是DNA分子的构型究竟是怎样的仍旧是个谜。鲍林(就是那个每天服用大剂量维生素C的家伙)首先发现了蛋白质里多肽的排列结构——alpha螺旋结构。这启发了当时的沃森和克里克,结合X光衍射理论推测模型,根据当时的情况是不是还需要做很多的衍射实验?1952年的夏天,科学家们证实了DNA就是遗传物质。紧接着1953年,克里克和沃森在自然杂志上发表了那一页著名的报——Molecular Structure of nucleic acids,从此人们开始更加深入地了解生命的形成。
Do or die, or don’t try——RNA领带俱乐部的箴言。为了寻找蛋白质的制造过程,鼓励大家研究RNA而成立的这个俱乐部,将20中氨基酸分配给20名成员,类似并行计算的形式,分别研究。我非常尊敬的克里克将DNA->RNA->蛋白质的信息流向称之为中心法则。RNA在细胞中扮演了重要的角色,为何DNA的信息要通过RNA才能转译成多肽序列?克里克提出了RNA比DNA早出现的答案。写到这里就想起教授基因组学的老师,他的观点是先有类真核生物,后有的原核生物,所以是先有DNA还是先有RNA还真不好说。
新技术:DNA定序法、DNA快速扩增技术PCR、DNA重组技术、全基因组测序方法、DNA芯片(DNA microarray)、DNA指纹技术STRs……
有了DNA,如何获得它的具体碱基排序顺序成了研究不可规避的障碍。Fred Sanger的DNA定序法是二十世纪七十年代的大发现。这个方法根据DNA片段在电场引力的作用下从凝胶板的一端跑到另一端的速度不同而区分出序列顺序。PCR方法为人类基因组计划的成功实施奠定了重要的基础。DNA重组技术为基因疗法的实现创造了必要条件。随着基因组测序方法的不断提升,有更多的物种基因被定序,为今后的研究打下基础。DNA芯片则是加快了测定多基因表达率。DNA指纹技术应用在法医鉴别、医疗移植手术前的分析中,是应用领域最广泛的生物技术。
无尽争论:转基因动植物
就像在开头引用埃姆斯的话,”双重标准”在转基因动植物领域永远是反基因改造者的标准思考方式。对于转基因水稻的质疑也是现今国内的热门话题,不管转基因水稻多么的优秀,就是有很都人不敢信任这些新品种。大家都认为吃了转基因水稻会对身体有害,并且这种损害不是一天两天就显现的,而是经过长年累月的积累才会出现。出于对这种未来不确定因素的害怕,有不少人鼓吹转基因有害论,殊不知袁隆平所发现培养出的杂交水稻也就是一种转基因水稻,与现在的特定基因改造不同,培育杂交水稻就像是在随即抽球,抽到幸运球就是杂交水稻,抽到的非幸运球也就是那些培养的失败品系,而杂交水稻里究竟有哪些基因发生了变异?这些变异会对它的食用者造成什么影响?这方面的信息就不清楚了(如果是天然物质,我们就毫不在乎)。有了新型的工具,可以定向的改变水稻中的特定基因,改变的越小,不确定性也就越小,后果也就更好控制。人体缺乏维生素A时食用β-胡萝卜素可以在体内产生维生素A。研究表明在肠道内存在脂肪时才能很好的吸收β-胡萝卜素,但是想想那些徘徊在饥饿边缘的难民们,他们的饮食中可能有脂肪类的食物吗?洛克菲勒基金会资助的一项国际计划意在大力发展“黄金水稻(golden rice)”,黄金水稻不含维生素A,但能生产重要的前体物质β-胡萝卜素,进一步说黄金水稻是控制了特定基因的改良品系,它的目的是帮助那些肠道内没有什么脂肪的营养不良者吸收营养。
对生命看法的演变:优生学与遗传学、天性论与教养、基因疗法与伦理
之前真的不清楚优生学是和纳粹联系在一起的,遗传学不是为了灭绝一些基因有缺陷的种群(虽然从长远的角度来看的确还是会灭绝),而优生学则是以遗传作为武器,用人类的方法迅速灭绝某个特定种族,在二十世纪初期,生命科学的作用还未被人们认识清楚,被一些顽固的人当作种族优劣的标准,实在是可悲的事情。
天性与教养哪个对人的影响更大?这实在是无法说清的问题。沃森认为有些基因注定的东西是后天教养无法改变的,但是他也支持后天教养的不同会培养出不同的品格,估计是比较纠结自己的爱尔兰血统不受欢迎的问题。
究竟基因疗法能否在医学领域应用?基因和干细胞克隆会带给医疗不一样的明天,但众所周知的伦理问题导致了这些治疗技术研究发展的缓慢。布什曾下令联邦政府不提供关于干细胞治疗的研究经费,在他看来,破还胚胎就是杀人,同样他也不赞同堕胎。其实在干细胞分裂的时候(分裂到有100个左右时)取出一两个细胞对整个胚胎的发育并没有什么大碍。如果能检测出胚胎基因的问题,并及时停止妊娠,可以避免生育有严重缺陷的孩子,当然这个选择权在父母的手中。山中伸弥发现的IPS cells方法为基因疗法提供了一种不用提取人类干细胞的方法。我很看好这种方法在干细胞研究中的应用(并认为他在今后也一定可能获得诺奖),但是IPS cells是否有实际应用于医疗的价值则值得商榷。有没有比诱导体细胞变干细胞更加简单可行的方法?有,肯定会有的!
后记:写完这些内容已经到了十一黄金周的最后一天,这个黄金周注定是不平凡的一个,先是诺奖获得者Ralph Marvin Steinman在得奖前就已经病逝(和最危险的胰腺癌斗争了4年的勇士),后有Steven Paul Jobs在iPhone 4S发布后离世,愿逝者安息。
中国国家博物馆参观攻略
2003年2月,在中国历史博物馆和中国革命博物馆两馆基础上正式组建的中国国家博物馆,已于2011年3月正是开放。
9月11日,和同学观了国博的部分展览,写篇参观攻略以表经历。
位置攻略
国博位于天安门广场以东。乘坐地铁1号线到天安门东下车即可。附近公交车站的名称是天安门广场东站。
公交车:1,1区间,2,10,20,37,52,59,82,99,120,126,203夜,205夜,210夜,728,专1,专2
地铁:1号线
开放时间
9:00 — 17:00(15:30停止门票发放,16:00停止进入场馆)
周一闭馆(国家法定节假日逢周一亦闭馆)
由于去时恰逢小长假,人比较多,从8点就有人开始排队,我们8点半到的门口,已有30-40人排队,在开门时排在我们前方的人瞬时增加了好几倍,(有的团体来参观都是一人排队,其他人逛天安门),所以要想早点入场排队要趁早。
入馆需知
切记不要带双肩背包!所有双肩背包都不能进馆,门口有存包处,大包5元、小包2元,不管包里有没有东西都要强制存包!(这估计是博物馆唯一创收的途径……) 参观完要到原存包处取包。
在进主门时还有贴身检查,水要喝一口。
入馆时的安检顺序:排队—>分成双肩包、非双肩包两队—>双肩包安检存包后领票、非双肩包领票—>检票—>进馆大门口安检,无包的直接贴身安检,有单肩包的进行包安检和贴身安检
馆厅外北侧有孔子雕像,可拍照留念,馆内参观不能拍照,但基于展品的不同以及公共素质、还是有很多人拍照的。(对这个连小学生都拿单反拍油画照片的世界绝望了-_-)
参观装备
水、穿舒适的鞋、近视别忘了带眼镜
参观路线
近日的展览有:国家艺术院团优秀剧目展、中央文史研究馆成立60周年特展、日出东方:马克思主义在中国暨人民出版事业90周年纪念展、125年意大利经典设计艺术展、馆藏现代经典美术作品展、古代中国、印加人的祖先——公元一至七世纪的古代秘鲁、启蒙的艺术、中国古代瓷器艺术、中国古代青铜器艺术、中国古代佛造像艺术、复兴之路
由于时间有限(半天),我们只参观了:馆藏现代经典美术作品展、印加人的祖先——公元一至七世纪的古代秘鲁、中国古代青铜器艺术、中国古代佛造像艺术、中央文史研究馆成立60周年特展
一层示意图,展览厅少,主要的是后面的学术报告厅和剧院,常有报告举行质量颇高,某同志就因沉迷于报告而掉队。
二层示意图,由于我们是从北面的电梯上楼的,所以观看的展览多集中于N1-N4和中央大厅。三层和四层布局类似。如果是只有半天参观时间的游客,建议按照全部北厅或全部南厅的顺序参观,这样可浏览到每层的展厅。有些展厅有讲解员,跟随讲解员的讲解浏览展品是最好的选择。
参观照片
这尊木雕佛像很精美,体现了我国古代高超的雕刻工艺。选自:中国古代佛造像艺术展览
集体照
没有看完中国古代瓷器艺术展览很可惜,展馆陶瓷艺术品实在是太精美了!!!!!!!
攻略秘笈
如果想整天参观的游客,需要中午出馆吃饭,可以在出馆后不取包(如果你不幸带了的话),直接到领票窗口再领一张门票,之后去吃饭,回来排队直接进馆继续参观。
中秋闲话
介于学校抽风的网络,已经多日无法登录到博客,每周都要写一点博客的计划差点完全泡汤。:(
中秋闲话,顾名思义,也就是说的都和中秋没一点关系的流水帐。
不得不说,同本科相比,现学校的选课系统不是很到位,对于浏览器的支持也不够,有些特定的页面是有在IE下才能成功浏览。开课一周,感觉老师们水平很高,但也会犯一点低级错误,例如院士的授课幻灯片上把bioinformatic写成了bioniformatic -_-'
。另外现在极其怀念大学的食堂,难吃但分量还是够的,米饭蒸得也不错。中秋节还有聚餐,现在的学校气氛全无。
周六冒雨回家拿了三国杀,结果同楼层的同学们基本就没人会玩。真是学生物的和学数学的有很大差别,想当年毕业时大家一局搞定三国杀普及教学,之后就玩的很顺,目前的情况则大不相同……
昨天和同学去了新建成的中国国家博物馆(National Museum of China)里面的展览很多,一上午也就逛了30%。攻略点此
今天是中秋节,在宿舍里独自一人写作业,晚上班级搞晚会,一个宿舍一个节目,由于之前悲剧的复试,导致现在的学档分离,宿舍里没有人与我同班。只好独自代表宿舍出个节目……愿晚上能蒙混过关。今天的天气不佳,晚上也不一定能看到传说中的圆月(一般都是十五的月亮十六圆,但今年中秋特殊,十五的月亮十五圆)
P.S.:1.博客的页面里新加了个todo list,提醒自己没有完成的任务。
2.人文楼前,第一任院长的雕像后面有个玉米烟斗被固定在那里,估计此物应是他生前常用物品(仿制的吧)。(藏的很隐蔽哦,2012.10.23更新,现在已经没了_-_
)
开学了
由于不会有Haruhi存在,无尽的暑假是不会出现的。对我来说最后一个大暑假结束了。
稍微小结一下暑期生活,参加了3个workshop (R、perl、可视化),学习了不同的知识。
参加了2次统计相关在线竞赛,基本没有名次。
2个bucter网站计划,没做。
读了《DNA:生命的秘密》,真的很好,推荐!
建立了自己的网站lijiayu.net和yulijia.net(以后要多写点博客,别浪费空间)
big data下的数据并行处理非常重要,单线程计算运行速度很慢,简直就是浪费生命