博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[kaggle]DC比赛进程
阅读量:5943 次
发布时间:2019-06-19

本文共 775 字,大约阅读时间需要 2 分钟。

  • 数据量不算小,压缩包7个G

    Paste_Image.png
估计今晚看不到了.png

赛题分析:

赛题分析.png
敲黑板的重点:用于学习道路交通状况,以期对<big><big>某时段下某出租车行驶某条线路</big></big>所需的时间做出预测。
数据说明:
数据说明.png
数据总量:14亿条,7G压缩包
数据维度:1.4万辆出租车、08.03-08.30(28天数据)
预处理:清洗掉了其中重复的和异常的记录,并忽略了00:00:00~05:59:59这一时间段的数据。用于比赛的数据被划分为三个部分。
详情:
1.201408xx_train.txt:训练集出租车GPS数据。 从08月03日到23日之间的GPS记录,用于学习交通流的状况,属于“训练集”,包含10亿条记录信息。
2.predPaths_test.txt:用于预测的道路轨迹数据。待预测路线大约3万条,其数据格式与训练集类似,但分钟和秒被统一设置为0。为了避免通过统计“记录之间的时间间隔”来猜测时间,我们在每一条路径中,随机删除了一些点。为了识别方便,我们将每一条路径的数据按时间顺序写入文件,并加入路径id。
3.201408xx_train.txt:用于辅助识别轨迹对应的前一小时的GPS记录数据,数据格式同1)。在单位为小时的时间段上与2)无任何重叠。

附加说明.png
评分标准.png
3SH5LBO9`G$T3U{A21$L_DD.png

明天试着把下载好的数据demo放到亚马逊云的Rstudio里,考虑一下 大家手头能使用到的环境 和 擅长的分析环境,周末列一个初步的计划出来,本周的初步目标是:搭好运算环境、确定人员分工、读懂赛题说明、查阅参考资料。

对了,之前说的是纽约出租车的那个,大家可以到github上自行搜索:

Paste_Image.png

转载地址:http://pnzxx.baihongyu.com/

你可能感兴趣的文章
ASM概述
查看>>
【290】Python 函数
查看>>
godaddy域名转发(域名跳转)设置教程
查看>>
silverlight学习布局之:布局stackpanel
查看>>
理解并自定义HttpHandler
查看>>
从前后端分离到GraphQL,携程如何用Node实现?\n
查看>>
JavaScript标准库系列——RegExp对象(三)
查看>>
Linux Namespace系列(09):利用Namespace创建一个简单可用的容器
查看>>
关于缓存命中率的几个关键问题!
查看>>
oracle中create table with as和insert into with as语句
查看>>
kafka连接异常
查看>>
11g废弃的Hint - BYPASS_UJVC
查看>>
为什么工业控制系统需要安全防护?
查看>>
Mongodb部署记录[3]-主从搭建
查看>>
hive sql操作
查看>>
tomcat 深度优化
查看>>
127 - "Accordian" Patience
查看>>
Mac 常用快捷键
查看>>
阿里云CentOS7安装Oracle11GR2
查看>>
nginc+memcache
查看>>