美国服务器_云虚拟主机哪家便宜_评分榜

小七 2019年10月25日 21:23 141 0

如果你是一个数据科学家或进行数据分析，阿里大数据，你可能会花很多时间在Jupyter笔记本上。这是一个方便的交互式工具，被业界广泛采用。通常，您会在那里完成各种各样的任务，淘客放单平台，从数据探索开始，到模型培训结束。数据科学家通常在本地机器上运行Jupyter环境，并通过本地主机访问它。这是非常好的工作，直到有一个长期运行的项目作为一个团队工作的需要。在这种情况下，拥有一个共享的、可扩展的环境，提供计算和存储能力以及预装的工具会更有效。

在这篇博客文章中，我将分享我们在团队中从事各种数据科学项目的经验。在我们的团队中，我们使用SAP数据智能。它是一个提供多种数据处理工具的平台，包括pipeline modeler、integrated Jupyter environment、data lake等。与其深入研究理论，我将提供一个构建简单价格预测模型的实际例子。所以，准备把你的手弄脏…

让我们假设你是一个商人，有兴趣预测鳄梨价格。例如，您希望提前两周预测它们。幸运的是，有一个开放的数据集，所以我们可以分析它并训练回归模型。我们先登录SAP Data Intelligence并打开ML Scenario Manager.

然后为您的项目创建一个新的场景只需按"+"按钮并输入名称。

我通常在Jupyter笔记本中执行数据探索和准备任务。它提供了一个方便的交互式python环境。SAP Data Intelligence已经准备好了。只需导航到笔记本部分并按"+"按钮即可启动新的Jupyter环境。输入一个名称，然后单击"创建"。

要开始数据探索，首先需要将鳄梨数据集引入工作环境。"原始文件"鳄梨.csv"相当小。您只需在这里下载，然后点击"上传文件"按钮上传到Jupyter实验室。

现在csv文件在用户环境中。然而，在实际项目中，有必要将实验结果持久化并与团队的其他成员共享。在sapdataintelligence中，推荐的方法是创建一个工件。通过使用"sapdi"库，大数据查询平台，您可以在笔记本上轻松地完成此操作。

现在，新创建的工件附加到场景中，并且可以通过其id进行访问。您可以切换回场景管理器并在那里找到数据集。

要开始数据探索，我建议将数据加载到数据框中。库已经预装，因此您可以将其导入笔记本并直接从工件对象读取数据。

数据集如上图所示。在这个例子中，我们的目标是训练一个模型，预测整个美国的平均价格。因此，可以删除冗余列并按日期聚合数据集。此外，您还需要固定数据类型并提取精确的日期信息，如年、月等

结果数据框显示所有数据都是每周星期日提供的。这意味着"工作日"列不相关，也可以删除。现在，让我们使用Jupyter实验室预装的"matplotlib"库来可视化数据，以查看价格趋势。

数据不多，但查看图表，我们可能会假设价格在年底会上涨，在早春期间会下降。

此项目的主要目标是提前两周预测价格的模型。这是一个时间序列预测任务，梯度增强算法可能是一个很好的选择。首先，让我们准备数据集。该模型需要知道以前的价格值。这可以通过引入包含2周、3周和4周前价格的滞后列来实现。前三行的值都是空的，所以你可以直接删除它们。

要训练模型，需要将数据集拆分为训练和测试子集。让我们用"numpy"库来做吧。是的，它也是预装的，所以只要导入它就可以了。

有很多方法可以训练梯度推进模型。在这个例子中，我建议使用"XGBRegressor"。该库提供了一种高效的训练算法，并共享与sklearn兼容的API。在内部，它依赖于"sklearn"，所以让我们将这两个库安装到笔记本中。

最后，一切都准备好进行培训。

培训过程总是有一个随机因素。在我的环境中，它最终有12棵树，均方根误差等于0.07031。这个值看起来很低，但仍然很难估计模型的性能。让我们预测整个现有时间线的值，以及未来几个月的值。下图显示了预测结果。

原始数据集很小，很难得到可靠的结果。模型所做的预测（蓝线）吻合得很好，但这和训练所用的时间框架是一样的。这意味着模型可能过拟合。绿线表示一年前的模型。它似乎顺应潮流，看起来很有前途。然而，做一个长期的预测比最初的两周预测要求要复杂得多。一般来说，该模型可以作为进一步研究的基线。让我们假设这是一个长期运行的团队项目，它在未来将有多个迭代。所以，让我们坚持基线模型，学生云服务器，并使其可供队友使用。在SAP Data Intelligence中，理想的方法是创建一个模型工件。

本文地址： /shujuku/32698.html