负载均衡_百度云转迅雷_新注册优惠

小七 2019年10月25日 21:23 141 0

三星SDS使用apachespark进行大规模的规范性分析

这是三星SDS的朋友的一篇客座博客文章，概述了他们的apachespark用例。业务挑战三星SDS是三星集团的业务和IT解决方案部门。三星SDS是一家全球信息通信技术服务提供商，在全球拥有超过17000名员工，总收入达67亿美元，能够应对制造业、金融服务业、医疗保健业和零售业等全球最大企业的挑战。在三星专注的不同领域，能否及时做出决策，使企业价值最大化变得至关重要。通过利用预测模型确定的可能的未来结果，并建议提供最大商业价值的行动，规范性分析方法已被有效地用于支持决策。在这些领域应用规范分析的主要挑战之一是需要分析大规模的结构化和非结构化数据的组合，这就需要一个灵活而全面的计算框架。为了证明可伸缩技术实现的规范性分析算法在实现决策用例方面的有效性，三星SDS美国研究院（SDSRA）已原型化了一个框架，三星SDS业务部门可以利用该框架并将其作为上市产品的一部分。为什么选择Apache Spark开发这样一个解决方案需要三个主要方面的努力：大容量数据处理，用于特征提取，作为商业环境状态建模的手段；历史事件的规范模式训练；实时处理决策请求和相应的规定动作；可以使用不同的技术来支持这些工作线程，但是集成这些技术可能会变成一项重要的任务，它不会直接为项目带来价值。SDSRA转向apachespark是因为它能够通过统一在一个分布式计算范式中的多个组件为所有三个领域的工作提供高效的解决方案，同时提供预期的容错级别。我们与Spark的第一次直接接触是在2014年早些时候在圣克拉拉召开的Strata会议上，当时参加了Berkeley Data Analytics Stack教程，那时框架的力量和API的简单性变得显而易见。回到实验室后，团队通过尝试实现数据挖掘算法（如Apriori）来试验该框架，以找到频繁项集。在初步体验之后，我们决定将框架应用于我们的规范性分析概念验证项目，触发两个并行的工作：一个用Spark实现一个规范的分析算法，另一个工作线程开发基于Spark流的实时框架，以获取处方作为对连续请求流的响应。使用Spark，原始原始数据可以加载到一个弹性分布式数据集（RDD）中，并转换成定义状态的一组特性。这些状态构成了规范性模型训练的输入，也通过一系列RDD转换在Spark框架上执行。然后，转换后的数据集作为MLlib回归模型的输入，以近似值函数，这是规定模型的主要元素。从训练好的模型中导出策略后，Spark流用于处理请求流，使用该模型作为流的一部分来规定操作和维护状态。Spark生态系统有三个主要特征使其与此解决方案完美匹配：在内存中缓存Spark数据集和Spark流数据流的能力、分布式架构（允许在商品服务器集群上实现水平线性扩展）和跨所有组件的单一开发范式。下一步是什么在SDSRA，我们认为Spark是一项关键技术，在处理高速接收的大量数据时提供高吞吐量和低延迟。随着我们将决策引擎发展成为一个完整的解决方案，我们期待着尝试使用诸如SparkSQL和GraphX等生态系统的其他组件。想了解更多关于SDSRA和这个平台的信息，请直接联系我。quintela@samsung.com免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3619.html