京东云_天翼云盘破解版_好用

小七 2019年10月25日 21:23 141 0

华为拥抱开源Apache Spark

这是我们的合作伙伴之一华为的博客加入我们的Spark峰会，听听Intel和其他公司在生产中部署ApacheSpark的消息。使用代码数据库20可以获得20%的折扣！电信网络中每秒钟有一个或多个兆字节的数据流并不罕见，这相当于每个月大约有EB。事实上，挑战不仅仅是网络流量数据的速度和数量。例如，位置数据采用原始的无线编码格式，嵌套结构复杂，压缩空间小；信令数据来自多个供应商的多接口设备，实时、批量地获取，需要复杂的关联规则，使其有意义且易于解释。最后，这些数据层之间以及每个水平层的数据实体之间的动态关系产生了一个极其复杂的分析问题。有效且内在统一的数据处理框架是解决这一系列挑战的关键。为什么选择Spark为了解决电信数据问题并以经济高效的方式满足数据分析需求，两个因素最为重要：首先，一个基于横向扩展、并行数据流模型的平台，可以同时处理不同的处理模式，同时在同一个执行引擎上高效地支持不同的工作负载—从SQL到运行机器学习算法，从流媒体到图形计算。第二，一个开放的框架能够以一致的方式支持各种复杂的数据源，直观地支持多个api，并且具有丰富的库，易于扩展。通过这种方式，IT、商业、数据科学和网络用户可以继续使用他们现有的技能，而无需处理陡峭的学习曲线。它大大缩短了应用程序开发和现场部署的生命周期。apachespark允许我们通过一个功能强大的平台来满足这两个需求，而不必承担编码、管理和与多个处理框架集成的负担。华为如何利用SparkSpark是华为大数据解决方案FusionInsight的数据处理和分析平台的核心，全球有100多家企业客户使用该平台。借助Spark，来自多个供应商的多个系统（如CRM、billing、OSS和network）的原始数据可以轻松加载到单个数据处理层中。数据科学家和数据工程师还可以使用sparksql来探索数据、提取和分组特征，以及利用MLlib算法开发模型。应用程序开发人员可以利用这些模型或功能的输出来构建特定的应用程序（例如，基站投资优化），并发布用于用户分析和网络监控的仪表板或报告。最后，业务用户可以使用sparksql进行特别查询，或者继续使用现有的BI系统或工具，如SAS、R或Python以及Spark强大的api。随着华为不断打造尖端电信解决方案，我们将越来越多地采用Spark作为我们解决方案的核心框架，因为它提供了强大的编程框架、丰富的API和库集、充满活力的生态系统和无与伦比的技术创新速度。实现的业务价值在全球五大移动运营商之一（拥有3亿多用户）中，华为将Spark部署在其关键业务领域的运营分支机构中。系统支持近实时分析、即席查询，特别是在CRM、计费、运营支持系统、无线网络等多种数据源上。它还允许分析师和数据科学家更有效地在大型数据集上建立模型，在某些情况下，将产品交付时间从几个月缩短到几周。我们还成功地利用Spark计划推荐和流失预测。项目上线后，每个月从预付费客户到付费后客户的转化率都会提高10-20%。对前K大客户的预测提高了约30%，每月帮助保留了30000多个用户。这意味着这家旗舰店将获得数百万美元的商业利益。华为和这名客户正在合作，进一步将Spark拓展到其他运营分支机构，并在其他新业务领域挖掘数据潜力（例如，向领先的广告代理商和零售商提供网站推荐）。华为致力于激发华为与Spark的关系可以追溯到2011年AMP Lab成立之时。华为对AMP实验室的愿景深信不疑，并在早期成为企业赞助商。多年来，华为组建了一支全球团队，积极参与社区活动，为社会做出贡献。在Spark 1.2版本中，华为有10个贡献者，1.3版本中有11个贡献者。为了进一步推动Spark在垂直行业的应用，我们在HBase上开发了Spark SQL，这是一个社区包项目，旨在加速大型数据集的在线数据查询和分析，并提供了数千行代码返回。华为团队还为Spark 1.3版本贡献了两个新功能：FP-growth算法用于解决频繁模式挖掘问题，幂迭代聚类算法用于识别用户、网络集群或其他组合之间的相似行为。华为将继续为Spark做贡献，并致力于社区项目，我们计划的一些工作包括：在HBase上的Spark SQL中添加协处理器和自定义过滤器；参与钨项目，同时探索在LLVM上实现矢量化处理和编译的可能性；将业务案例驱动的新算法引入到MLlib中，支持MLlib特征转换；计划在Spark流中支持CEP处理。简而言之，华为致力于激发火花，并打算广泛参与社区和行业的共同努力。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3667.html