云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

美国服务器_云虚拟主机哪家便宜_评分榜

小七 141 0

如果你是一个数据科学家或进行数据分析,阿里大数据,你可能会花很多时间在Jupyter笔记本上。这是一个方便的交互式工具,被业界广泛采用。通常,您会在那里完成各种各样的任务,淘客放单平台,从数据探索开始,到模型培训结束。数据科学家通常在本地机器上运行Jupyter环境,并通过本地主机访问它。这是非常好的工作,直到有一个长期运行的项目作为一个团队工作的需要。在这种情况下,拥有一个共享的、可扩展的环境,提供计算和存储能力以及预装的工具会更有效。

在这篇博客文章中,我将分享我们在团队中从事各种数据科学项目的经验。在我们的团队中,我们使用SAP数据智能。它是一个提供多种数据处理工具的平台,包括pipeline modeler、integrated Jupyter environment、data lake等。与其深入研究理论,我将提供一个构建简单价格预测模型的实际例子。所以,准备把你的手弄脏…

让我们假设你是一个商人,有兴趣预测鳄梨价格。例如,您希望提前两周预测它们。幸运的是,有一个开放的数据集,所以我们可以分析它并训练回归模型。我们先登录SAP Data Intelligence并打开ML Scenario Manager.

然后为您的项目创建一个新的场景只需按"+"按钮并输入名称。

我通常在Jupyter笔记本中执行数据探索和准备任务。它提供了一个方便的交互式python环境。SAP Data Intelligence已经准备好了。只需导航到笔记本部分并按"+"按钮即可启动新的Jupyter环境。输入一个名称,然后单击"创建"。

要开始数据探索,首先需要将鳄梨数据集引入工作环境。"原始文件"鳄梨.csv"相当小。您只需在这里下载,然后点击"上传文件"按钮上传到Jupyter实验室。

现在csv文件在用户环境中。然而,在实际项目中,有必要将实验结果持久化并与团队的其他成员共享。在sapdataintelligence中,推荐的方法是创建一个工件。通过使用"sapdi"库,大数据查询平台,您可以在笔记本上轻松地完成此操作。

现在,新创建的工件附加到场景中,并且可以通过其id进行访问。您可以切换回场景管理器并在那里找到数据集。

要开始数据探索,我建议将数据加载到数据框中。库已经预装,因此您可以将其导入笔记本并直接从工件对象读取数据。

数据集如上图所示。在这个例子中,我们的目标是训练一个模型,预测整个美国的平均价格。因此,可以删除冗余列并按日期聚合数据集。此外,您还需要固定数据类型并提取精确的日期信息,如年、月等

结果数据框显示所有数据都是每周星期日提供的。这意味着"工作日"列不相关,也可以删除。现在,让我们使用Jupyter实验室预装的"matplotlib"库来可视化数据,以查看价格趋势。

数据不多,但查看图表,我们可能会假设价格在年底会上涨,在早春期间会下降。

此项目的主要目标是提前两周预测价格的模型。这是一个时间序列预测任务,梯度增强算法可能是一个很好的选择。首先,让我们准备数据集。该模型需要知道以前的价格值。这可以通过引入包含2周、3周和4周前价格的滞后列来实现。前三行的值都是空的,所以你可以直接删除它们。

要训练模型,需要将数据集拆分为训练和测试子集。让我们用"numpy"库来做吧。是的,它也是预装的,所以只要导入它就可以了。

有很多方法可以训练梯度推进模型。在这个例子中,我建议使用"XGBRegressor"。该库提供了一种高效的训练算法,并共享与sklearn兼容的API。在内部,它依赖于"sklearn",所以让我们将这两个库安装到笔记本中。

最后,一切都准备好进行培训。

培训过程总是有一个随机因素。在我的环境中,它最终有12棵树,均方根误差等于0.07031。这个值看起来很低,但仍然很难估计模型的性能。让我们预测整个现有时间线的值,以及未来几个月的值。下图显示了预测结果。

原始数据集很小,很难得到可靠的结果。模型所做的预测(蓝线)吻合得很好,但这和训练所用的时间框架是一样的。这意味着模型可能过拟合。绿线表示一年前的模型。它似乎顺应潮流,看起来很有前途。然而,做一个长期的预测比最初的两周预测要求要复杂得多。一般来说,该模型可以作为进一步研究的基线。让我们假设这是一个长期运行的团队项目,它在未来将有多个迭代。所以,让我们坚持基线模型,学生云服务器,并使其可供队友使用。在SAP Data Intelligence中,理想的方法是创建一个模型工件。