对于主干路的拥堵态势预测研究解读原始数据：数据的预处理：特征工程：建模评估：测试模型：

289 阅读 0 评论 191 点赞

我是靠谱客的博主腼腆绿茶，这篇文章主要介绍对于主干路的拥堵态势预测研究解读原始数据：数据的预处理：特征工程：建模评估：测试模型：，现在分享给大家，希望可以做个参考。

这个程序是我在研一的时候，当时和世纪高通公司有合作，他们给我提供数据，我来做的一个课题。

我们的目标是根据已有的交通数据来建立一个拥堵情况预测的模型。整个过程大概可以分为如下步骤：

1、解读原始数据

2、数据的预处理

3、特征工程

4、建模评估

5、测试模型

解读原始数据：

因为之前对于这方面还没有了解，所以面对这些数据是一头雾水的。

在原始数据中，给出了路段的ID，路段的名称，时间段，道路类型，车间距离，车速，密度，流量，与之相联通的道路的（ID，名字，车速，流量，密度等属性）以及作为标签的拥堵程度指数。在了解这些代表了什么意思，以及把相关的单位都统一之后，便开始进行数据的预处理。

数据的预处理：

原始数据是一段一段的按照时段给出来的，所以先要concat放在一起处理。然后计算一下拥堵指数大体的中位数，标准差，平均值，可以得到标签大致的分布情况。另一方面，就是看一下缺失值，一般都是用相近数据的平均值来填充。针对于异常值似乎没有什么太好的办法。

特征工程：

原始的特征是：车速、车间距、密度、流量、时间段、道路等级，以及相联通路段的情况，而我们根据日期还补充了当时的天气情况。接下来就是需要对特征进行处理，从而让计算机可以理解。首先是对于量比较大的数据如密度、流量，进行归一化处理。然后再面对天气、时间段以及日期的时候，我们先根据时间分离出了早晚高峰、阴晴雨雪、工作日/假期的特征。然后根据这种情况进行one-hot编码。但是不同的地方在于，工作日/假期，早晚高峰平常时段这些都是对于交通情况有正向或者负向的影响的。所以这一部分也是值得注意的。在进行编码完成之后，就要建立模型进行训练了