游戏服务器_香港云服务器推荐_高性能

小七 2019年10月25日 21:23 141 0

SAP RealSpend是一款易于使用的云应用程序，由我们的团队在德国波茨坦的SAP创新中心开发。它使管理人员能够实时跟踪他们的实际支出、承诺支出、批准支出和请求支出。基于SAP云平台，SAP RealSpend直接连接到SAP S/4HANA，无需复制财务数据。

除此之外，我们还添加了机器学习功能，可自动分析数据，大数据传输，企业号应用，突出错误或欺诈预订等异常过账。我们让报告这些异常变得像点击按钮和发送电子邮件一样简单。正确地归属这些费用将给你更好的信息，为今后的重要决策。在这篇文章中，我将解释我们所学到的知识，因为我们创建了一个算法，从第一天开始检测异常，并利用用户反馈定制结果以匹配您的组织。

如果您想了解异常检测如何帮助经理的更多信息，我建议您查看我们产品经理的这篇有用的文章，Mathias Poehling.

如何验证费用（例如酒店账单）是否合法且输入是否正确？对人类来说这很容易。只需检查金额是否合理，是否员工在逗留期间确实出差，或直接询问员工即可。但你不能告诉机器。它不知道什么是合理的，也不能与员工交谈。

机器学习可能还不能给我们有知觉的机器人，但它有助于创建能够回答这些困难问题的算法。这些答案并不总是完美的，但通过优化，它不仅会比人类快得多，而且会给出更好的结果。最简单的版本基本上是一个回归模型，它将一个函数与过去的值拟合，并根据这个函数预测未来的值，有神经网络（模拟大脑学习的方式）和集成算法（将多个数学模型组合成一个模型）。

我们必须区分两种算法：有监督学习使用的输入数据已经具有我们期望预测的属性的正确值，而无监督学习则试图根据以前未标记的数据来预测属性。任何一种机器学习算法的质量都与输入数据的质量密切相关。好的输入数据需要是无偏的，并且应该是结构良好的。但现实世界中的数据很少是完美的，通常需要调整和优化。

这些调整和优化要求数据科学家对算法有很好的理解，并掌握一些领域知识，以便能够评估数据集和算法。尽管如此，由于有许多工具和深入的文档可供使用，因此没有先验知识的开发人员可以开始机器学习。

在我们的案例中，我们使用Anaconda发行版进行初始数据探索和原型设计。Anaconda包括一个python运行时和许多有用的工具，如：

scikit learn：一个机器学习库，提供大量的常用算法jupyternotebook：一个结合了代码、文档和REPL的基于web的开发环境熊猫：一个数据分析和处理库numpy：高性能数学库

对于最终的生产性实施，我们利用了SAP S/4HANA中的预测分析库（PAL）。PAL提供了许多相同的算法，但是直接在HANA数据库上工作。如果您有兴趣了解更多信息，个人云服务器家用搭建，请查看我的同事Frank Essenberger关于如何在SAP S/4HANA中定制机器学习的博客。

每个机器学习算法的一个要求是访问数据。越大越好！获取好的数据可能是一项挑战，尤其是在金融等敏感领域。许多数据集都是匿名的或被置乱的，这对模型性能有负面影响，如果可能的话应该避免，何为大数据，我们首先使用pandas探索数据的结构和内容，pandas可以从几乎任何类型的存储器中获取数据，并将其放入内存中的数据帧中，以便快速方便地访问。它还与numpy和matplotlib进行了很好的集成，允许快速操作和绘图。查看universal journal（也称为saps/4HANA的ACDOCA表），我们必须处理数百个带有简写名称和部分未初始化数据的列。表格文档是我们开发算法时最常用的文档之一。

在我们的例子中，列包含四种不同类型的数据。大多数列被解析为字符串，即使它们不一定是文本数据。相反，我们发现许多列只包含一组预定义的选项，称为分类数据。最后，我们有布尔数据，也有数字数据（例如花费的数量，但也有时间戳）。

大多数机器学习算法基于数学模型，期望输入一个二维的数字数据数组。根据给定算法的复杂度，运行时可能会随着样本量的增加而扩展，但如果有大量的特征（列），则会更糟。

为了让算法理解给定的列，有不同的预处理策略可用。对于分类数据，有一些编码策略，如一个Hot（为每个选项创建一个布尔列）或labeling（创建一个数字列并为每个选项分配一个数字）。文本数据可以使用计数矢量器（为每个单词创建一列并将出现的次数作为值）或更高级的术语frequency（逆文档频率）进行转换（tf-idf）

本文地址： /zhuji/74789.html