云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

游戏服务器_香港云服务器推荐_高性能

小七 141 0

SAP RealSpend是一款易于使用的云应用程序,由我们的团队在德国波茨坦的SAP创新中心开发。它使管理人员能够实时跟踪他们的实际支出、承诺支出、批准支出和请求支出。基于SAP云平台,SAP RealSpend直接连接到SAP S/4HANA,无需复制财务数据。

除此之外,我们还添加了机器学习功能,可自动分析数据,大数据传输,企业号应用,突出错误或欺诈预订等异常过账。我们让报告这些异常变得像点击按钮和发送电子邮件一样简单。正确地归属这些费用将给你更好的信息,为今后的重要决策。在这篇文章中,我将解释我们所学到的知识,因为我们创建了一个算法,从第一天开始检测异常,并利用用户反馈定制结果以匹配您的组织。

如果您想了解异常检测如何帮助经理的更多信息,我建议您查看我们产品经理的这篇有用的文章,Mathias Poehling.

如何验证费用(例如酒店账单)是否合法且输入是否正确?对人类来说这很容易。只需检查金额是否合理,是否员工在逗留期间确实出差,或直接询问员工即可。但你不能告诉机器。它不知道什么是合理的,也不能与员工交谈。

机器学习可能还不能给我们有知觉的机器人,但它有助于创建能够回答这些困难问题的算法。这些答案并不总是完美的,但通过优化,它不仅会比人类快得多,而且会给出更好的结果。最简单的版本基本上是一个回归模型,它将一个函数与过去的值拟合,并根据这个函数预测未来的值,有神经网络(模拟大脑学习的方式)和集成算法(将多个数学模型组合成一个模型)。

我们必须区分两种算法:有监督学习使用的输入数据已经具有我们期望预测的属性的正确值,而无监督学习则试图根据以前未标记的数据来预测属性。任何一种机器学习算法的质量都与输入数据的质量密切相关。好的输入数据需要是无偏的,并且应该是结构良好的。但现实世界中的数据很少是完美的,通常需要调整和优化。

这些调整和优化要求数据科学家对算法有很好的理解,并掌握一些领域知识,以便能够评估数据集和算法。尽管如此,由于有许多工具和深入的文档可供使用,因此没有先验知识的开发人员可以开始机器学习。

在我们的案例中,我们使用Anaconda发行版进行初始数据探索和原型设计。Anaconda包括一个python运行时和许多有用的工具,如:

scikit learn:一个机器学习库,提供大量的常用算法jupyternotebook:一个结合了代码、文档和REPL的基于web的开发环境熊猫:一个数据分析和处理库numpy:高性能数学库

对于最终的生产性实施,我们利用了SAP S/4HANA中的预测分析库(PAL)。PAL提供了许多相同的算法,但是直接在HANA数据库上工作。如果您有兴趣了解更多信息,个人云服务器家用搭建,请查看我的同事Frank Essenberger关于如何在SAP S/4HANA中定制机器学习的博客。

每个机器学习算法的一个要求是访问数据。越大越好!获取好的数据可能是一项挑战,尤其是在金融等敏感领域。许多数据集都是匿名的或被置乱的,这对模型性能有负面影响,如果可能的话应该避免,何为大数据,我们首先使用pandas探索数据的结构和内容,pandas可以从几乎任何类型的存储器中获取数据,并将其放入内存中的数据帧中,以便快速方便地访问。它还与numpy和matplotlib进行了很好的集成,允许快速操作和绘图。查看universal journal(也称为saps/4HANA的ACDOCA表),我们必须处理数百个带有简写名称和部分未初始化数据的列。表格文档是我们开发算法时最常用的文档之一。

在我们的例子中,列包含四种不同类型的数据。大多数列被解析为字符串,即使它们不一定是文本数据。相反,我们发现许多列只包含一组预定义的选项,称为分类数据。最后,我们有布尔数据,也有数字数据(例如花费的数量,但也有时间戳)。

大多数机器学习算法基于数学模型,期望输入一个二维的数字数据数组。根据给定算法的复杂度,运行时可能会随着样本量的增加而扩展,但如果有大量的特征(列),则会更糟。

为了让算法理解给定的列,有不同的预处理策略可用。对于分类数据,有一些编码策略,如一个Hot(为每个选项创建一个布尔列)或labeling(创建一个数字列并为每个选项分配一个数字)。文本数据可以使用计数矢量器(为每个单词创建一列并将出现的次数作为值)或更高级的术语frequency(逆文档频率)进行转换(tf-idf)