以下是关于event prediction的相关论文,主要是traffic accident这一类的事件预测。
- 1. 论文
- 1.1. Learning Deep Representation from Big and Heterogeneous Data for Traffic Accident Inference(2016AAAI)
- 1.2. Combining Satellite Imagery and Open Data to Map Road Safety(2017AAAI)
- 1.3. A Deep Learning Approach to the Prediction of Short-term Traffic Accident Risk(未中)
- 1.4. A Deep Learning Approach to the Citywide Traffic Accident Risk Prediction(2018IEEE-ITSC)
1. 论文
1.1. Learning Deep Representation from Big and Heterogeneous Data for Traffic Accident Inference(2016AAAI)
论文地址:
Learning Deep Representation from Big and Heterogeneous Data for Traffic Accident Inference
目标:使用real-time GPS data 预测所有区域的traffic risk level,回归问题,预测risk的大小,而不是accident会不会发生 。
数据集:
Traffic accident data和Human mobility data throughout Japan from 2013.1.1~2013.7.31。
模型:
对Japan的区域进行网格划分,获取每个网格的risk和mobility。使用Denoise Autoencoder模型对mobility进行编码representation,然后输入到Logistic regression层作为预测。
总结:
- 第一个使用深度学习来预测traffic accident的模型,使用real-time GPS data作为输入。
- 没有考虑到时间和空间的关系;
- 特征单一。只考虑了human mobility,可以考虑weather,POI,population,land use等信息。
1.2. Combining Satellite Imagery and Open Data to Map Road Safety(2017AAAI)
论文地址:
Combining Satellite Imagery and Open Data to Map Road Safety
直接从原始的satellie image来预测road safety。相同的safety在图像视觉上有一些相同的特点,比如颜色(grey/greed),路段等。所以图像的特点是road safety的一种体现。
traffic accident被分为3类:slight,heavy,fatal。
数据集:
NYC:收集了14000张卫星图像,每个图像图片的标签是3类accident中的一类
Denver:收集了21406张卫星图像,标签是3类中的一类。
每张图片是256*256,使用ConvNet来对图像进行分类。使用NYC的卫星图像训练模型,使用训练好的模型对NYC的测试卫星图像进行测试。
使用Denver的traffic accident映射到地图上,形成traffic 热力图。使用从NYC训练得到的模型,输入是Denver的卫星图片,输出区域的traffic accident severity。即可以生成地图来表示区域的risk。
总结:
- 第一个使用satellite image来预测city-scale road safety的模型
- 仅仅使用satellite image来预测traffic accident,没有考虑时间和空间信息,外部信息。
1.3. A Deep Learning Approach to the Prediction of Short-term Traffic Accident Risk(未中)
论文地址:
A Deep Learning Approach to the Prediction of Short-term Traffic Accident Risk
这篇论文首先指出了《Learning Deep Representation from Big and Heterogeneous Data for Traffic Accident Inference》AAAI2016的缺点:(1)只考虑了human mobility data,像traffic flow,weather,air quality,regional characteristic这些重要的信息没有考虑。(2)没有考虑traffic的周期pattern。
本篇论文收集了big and heterogeneous data related traffic accident。
数据集:
traffic accident:北京2016年的accident数据,每条记录包含时间,地点,严重程度,分为三类,slight、heavy、fatal
traffic flow data:北京2016.8所有的taxi的GPS信息和speed信息。
air quality:北京的daily PM2.5信息。
weather information:cloudy,sunny…
每个区域的risk level是这个区域所有的accident severity的总和。
将traffic accident按照时间和空间划分,时间1h为一个slot,空间每个gird大小为1000m*1000m。
在给定时间t,定义所有区域的时间相关性,
从以上这些数据集提取出6个矩阵,分别是
将这6个矩阵进行整合成一个矩阵,每个区域每个时间得到一个多源数据的表示。
模型:Traffic Accident Risk Prediction Method based on LSTM (TARPML)
有2个input layer,隐藏层有4个LSTM layer和3个fully connected layer,1个output layer,输出risk level。
使用LSTM是因为LSTM可以捕捉periodic信息。
输入层中的Short-term features是预测时间槽t的前几个小时的特征I,Periodic feature是预测时间槽t的daily和weekly特征。将这三种特征拼接起来,输入到first input layer中。区域的经纬度信息输入到second input layer中, 直接和fully connected layer相连。
输入的短期特征是预测时间t前n个小时的特征,n=4.输入的周期特征是预测时间t昨天和上周该时间段前后3个小时的特征。所以输入的特征维度为$(n+2n_d+2n_w+2,6)$。对于一个区域预测时间t的risk level,需要输入的数据是$(n+2n_d+2n_w+2,6)$
整体架构
总结
- 使用到的数据集是北京:traffic accident,traffic flow,weather,holiday,air quality数据
- 分三种时间模式,recent,daily,weekly,直接concatenate输入到LSTM中。并且把region的经纬度输入到全连接中,相当于位置embedding。
- 没有考虑不同区域之间的关系
- 想法:(1)回归问题,预测区域的risk level,但是是一个区域还是所有区域,没有想好(2)考虑recent,daily,weekly,使用Attention机制计算三种之间的重要性.(3)对区域进行embedding,(4)考虑不同区域之间的关系.
1.4. A Deep Learning Approach to the Citywide Traffic Accident Risk Prediction(2018IEEE-ITSC)
论文地址:
A Deep Learning Approach to the Citywide Traffic
Accident Risk Prediction
这篇论文是上篇论文的修改版本。
和上文的改进之处是加入了很多图表对现象进行解释。解释了为什么预测traffic accident分类比回归要难的原因。
这里只使用了北京Traffic accident数据,没有使用其他外部数据。
在给定时间t,计算所有区域的空间相关性,然后再计算时空相关性。 计算下面2个公式,主要是为了说明traffic accident具有day周期性。所以在本论文中一个time slot=24h。计算一个区域每天的traffic accident发生的频率作为risk。
输入序列长度为100,输入每个区域100h的traffic accident frequency,输出是每个区域未来3天的mean frequency,使用所有的区域样本进行训练。测试时,输入是所有区域100h的traffic accident frequency,输出所有区域未来3天的平均frequency。
总结:
- 只使用了traffic accident数据,没有使用traffic flow,weather,road network等外部信息
- 没有考虑空间信息