云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

负载均衡_ss服务器地址_是什么

小七 141 0

有没有找过不到100%完美的匹配?基于密钥的匹配不适合你?直到几年前,海淘客,模糊匹配还是我们唯一的答案。今天,数据科学算法正在突破"可能"的界限。了解我们如何使用SAP Data Intelligence和SAP Analytics Cloud使用通常应用于文档相似性的算法来解决传统的模糊匹配问题。

在本博客系列的第1部分中,我们为该问题陈述设置了上下文,即在解释所用模型之前执行的预处理。在第2部分中,我们深入讨论了如何在数据管理员的帮助下编译和增强结果。在最后一部分中,我们将阅读SAP Data Intelligence写入SAP Analytics Cloud的数据集,并将结果可视化。数据管理员也有机会玩转阈值,并观察阈值的设置是否保守。

在步骤03结束时,我们注意到,我们的公共文件夹中有客人,即SAP Data Intelligence提供的Master&Bridge数据集。

我们拿起这些数据集,观察它们是否良好。事实上,这座桥有一组由Match ID标识的轮廓,以及用于标识它的模型、相似性分数(如果适用)、来源的性质(因为这座桥是血统的真相来源)和轮廓的细节,比如姓名、性别、年龄、地址,等等。为了保护数据隐私,我们在这种情况下屏蔽了数据。

另一方面,自助建站开发,主人拥有黄金记录或最好的资料,这些资料来源被认为是最纯粹的,从一组可用的资料中创造出来。

随后,我们将这些数据集读入一个SAC故事,这个故事分几个部分进行。

sankey从R可视化对象创建的图表值得仔细查看。它指出了记录是如何在各种模型中飞过的,即时通讯云平台,以及如何在需要或不需要审查的组中降落的(因为它们是确认的匹配或不匹配)。数字是虚拟的,不具有代表性。

与此类似,维恩图总结了3个文件之间的重叠。同样,数字是虚假的,不具代表性。

因为我们现在对这个系统有了一个整体的看法,从正面、隔离和取消隔离名单重叠的个人来看,我们现在可以更自信地预测未来几周的数字会是什么样。出于演示目的,我们使用SAP Analytics Cloud的内置预测功能,但实际上,定制预测算法可以在SAP Data Intelligence中构建,并在SAP Analytics Cloud中使用。

从数据管理员的角度来看,我们可能想粗略地回顾一下算法自动认为的匹配和不匹配。数据管理员可以移动应用于相似度得分的阈值,将组分成这3个桶。因此,数据智能中用于隔离的阈值可以持续审查,并在需要时更改。记住,我们认为需要审查的相似性分数范围越广,数据管理员需要付出的努力就越多。理想情况下,我们希望从模型中得到足够好的结果,因此需要管理员审核的组尽可能少。这将节省管家宝贵的时间,可以花在更富有成效的任务上。

从技术角度看,这真是一瓶新的老酒。高级别进程仍然很像十年前我们做了类似事情时的样子。当时,美国一家制药公司的两个姐妹公司正在进行合并,云服务器价位,我们用以前最先进的"模糊匹配"技术合并了他们的医生数据库。今天,我们部署基于TF-IDF的模型来执行相同的任务–唯一的区别是更高的效率。

新模型比模糊匹配快得多。对于我们的数据集,在隔离和解除隔离清单中分别有大约2500条记录和阳性清单中有大约200条记录,模糊匹配模型用了大约4个小时来产生结果。余弦相似模型和最近邻模型都用了不到一分钟的时间。所需时间在某种程度上取决于数据集的性质,但随着记录的增加,时间的增加将不是线性的。我们能够结合使用不同技术处理问题的两个不同模型的能力。需要一些数据操作来"协调"由竞争算法创建的组,但这可以通过一些定义良好的业务规则来实现。我们所取得的结果,是初步的和示范的能力,机器学习模型。通过一些超参数调整可以实现更高的效率

从业务角度来看,关键的价值是自动化总是带来的效率。

处理配置文件所需的时间更少。减少手动部件可降低出错的可能性。官员们现在自由了,所以他们可以专注于更关键的业务任务。

现在是不寻常的时期,他们正在滋生不寻常的问题。但是,我们任何人都不能逃避,我们可以用我们的旧工具很好地解决这些新问题。

如有任何问题,美国云服务器,请直接联系我们,我们的电子邮件地址如下。

阿比纳亚·西尼瓦桑@sap.com网站尼维迪塔.瓦卢鲁.拉克希米@sap.com网站维里德希·谢蒂@sap.com网站