今年KDD cup由阿里巴巴天池承办,比赛的题目是预测汽车通过高速公路闸口的时间,以及高速公路入口到闸口的车流量,这是一个时间序列预测类的问题,同类问题很多都属于经济学方面。

预测方法就是提取前6个时间段的信息,预测后6个时间段的结果。训练数据量大约3个月左右。

这题麻烦在从题目中的各种表格中提取特征,以及预测时训练集合的组成(究竟用每个路口的数据预测,还是一个路口一个路口来训练预测)。很明显比赛题目中的缺失数据是硬造出来了,给数据整理带来了不少麻烦。

灰师弟和我一起参加了比赛(分别做1,2题,两个人选题不一样),前后一共忙活了20天,他的成绩比我好,mape 0.23 我的在0.3到0.6之间徘徊 _-_

废话不多说,总结一下从中学习到了什么新东西:

  1. 比起R,python在机器学习方法上的包内容更全面,也更好掌握
  2. 完整的实现了R中xgboost方法的tune步骤,借鉴了这个脚本,比caret包好用。
  3. objective function 几乎忘光了,要重新捡起来,我觉得构造这个方程很有意思。
  4. 关于一个一个路口预测还是整体一起预测的问题,整体一起预测的效果会好一些。
  5. 有一个同boosting相关的时间序列包叫forecastxgb,官方推荐的入手点,测试了一下,计算速度慢,结果也不好。

最后还要唠叨一句,十年河东,十年河西,今年的KDD cup平台不好用,选手登录都不方便。论坛里各种中文发帖交流,我估计都没几个外国选手参加。最后还出现了竞赛“丑闻”,不知道是不是有人蓄意抹黑还是真的有这种事情发生。

数数据竞赛,还看Kaggle!