稚久|特征工程之处理时间序列数据( 四 )
fig, ax = plt.subplots(figsize = (12,6))index_ordered = raw.date_time.astype('str').tolist()[-len(X_test):][-100:]ax.set_xlabel('Date')ax.set_ylabel('Traffic Volume') # the actual valuesax.plot(index_ordered, y_test[-100:].to_numpy(), color='k', ls='-', label = 'actual')# predictions of model with engineered featuresax.plot(index_ordered, gb_reg.predict(X_test)[-100:], color='b', ls='--', label = 'predicted; with date-time features')# predictions of model without engineered featuresax.plot(index_ordered, gb_reg_lite.predict(X_test_lite)[-100:], color='r', ls='--', label = 'predicted; w/o date-time features')every_nth = 5for n, label in enumerate(ax.xaxis.get_ticklabels()):if n % every_nth != 0:label.set_visible(False)ax.tick_params(axis='x', labelrotation= 90)plt.legend()plt.title('Actual vs predicted on the last 100 data points')plt.draw()
后100个点的预测结果
该图中蓝色虚线与黑色实线十分接近 。 也就是说 , 我们提出的gradient-boosting模型可以很好地预测地铁交通量 。
同时 , 我们看到不使用日期时间特征的模型在性能上出现了差异(红色虚线) 。 为什么会这样?只是因为我们会依赖交通工具 , 交通流量在周末趋于减少 , 但在高峰时段出现高峰 。 因此 , 如果我们不对日期时间数据进行特征工程处理 , 我们将错过这些重要的预测因子!
作者:Pararawendy Indarjo
deephub翻译组 OliverLee
- 特斯拉上海二期工程主体结构完成 2020电动汽车行业现状及发展前景趋势分析研究报告
- 物流巴巴网|马来西亚萨潘加尔湾集装箱港口的扩建工程将于今年开始
- |抗疫英雄谱丨中国工程院院士张伯礼:贤以弘德,术以辅仁
- 央视新闻客户端|抗疫英雄谱丨中国工程院院士张伯礼:贤以弘德 术以辅仁
- 中国中铁|中国中铁中标400亿大工程!铁建有份
- 跌幅为|9月7日三大股指午盘全线收跌:上证指数跌0.16%,创业板指跌1.15%;安防设备、旅游酒店、园林工程逆势领涨
- 上观新闻|特斯拉上海二期工程主体结构完成,可量产Model Y
- 上海消防网|黄浦区召开在建修缮工程安全生产和消防工作会议
- 宝山区委组织部|宝山区淞南镇:积极打造入党积极分子“育苗工程”
- 一辈子都不需要成熟起来|有关美国乡村发展政策变化的特征