不久前,什么大数据,我在这里对Tammy Powlas的一篇优秀文档发表了评论:使用时间序列分析进行预测–SAP Predictive Expert Analytics。
我想我会利用一个空闲时间"喝我自己的香槟",大数据治理平台,并尝试使用自动分析的相同示例。
我从完全相同的来源收集数据–来自交通统计局()我下载了1996年1月至2015年6月的美国国内乘客数据,按年/月计算。
我的目标:
我打开SAP Predictive Analytics并跳转到Modeler/Time series部分。
首先我加载非常简单的.csv文件并指定日期格式。
我需要告诉软件,我的日期栏给出了数据集的顺序(order=1表示月份变量)。
我可以快速查看数据–每月的乘客登机数。
我设置了两个变量:
我将生成我的模型,并要求30个预测,以获得到2017年12月的预测。
模型的性能模型非常好。
98%的信号被解释,只有2%的信号无法解释,淘客cms,我们稍后会理解原因。
模型有一个多项式趋势和周期,以一年中的月份为基础。
正如塔米所解释的,由于暑假的原因,夏季的交通量比较大,
我可以在查看信号组件窗口看到信号。真实的数字显示为绿色。我的模型预测的信号以蓝色显示。
我们看到这里有一个异常值(红色矩形),模型并没有真正理解2001年9月发生的事情(虽然我们确实理解并记得)。
信号的其余部分是非常好的建模,5118大数据,尽管我们在视觉上发现了2004年到2009年的一些差异实际流量高于模型值。这是因为危机前航空公司的客流量增加吗?
我们可以直观地看到2015年至2017年预测的不确定性。
我个人更喜欢导出到Excel,并在那里看到预测值。2017年12月的预计客运量为5526万人次,预测区间上限为5794万人次,区间下限为5258万人次。2017年7月可能是接近6300万乘客的高峰。
我们当然可以进一步提高预测的准确性和可靠性,同时考虑到超过唯一日期的更多变量。这是自动分析的时间序列算法提供的核心功能。
感谢您阅读本文,希望您喜欢!
感谢Tammy Powlas的原始文档创意。
我将很高兴与任何对此示例感兴趣的人分享数据集。你也可以直接从本文开头的链接下载。
安托万
伟大的安托万邮报
谢谢拉纳杰!
鸡肉!你可以比较这两种方法的结果。
我认为这篇文章应该由另一篇文章来补充,其中包括额外的预测变量,这些变量可以通过自动化(正如你正确指出的那样)自动处理,比如平均汽油价格,为什么不如你所建议的航空运输量,或任何其他美国指标,我们可以找到(汽车销量等)
谢谢评论埃里克!
,大数据分析软件