云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

文件存储_华为云计算部门_排行榜

小七 141 0

LynxKite和Apache Spark的大图分析

这是我们的合作伙伴之一Lynx Analytics的客座博客关于Lynx AnalyticsLynx Analytics是一家数据分析咨询公司,专注于图形分析和专有的大图形分析软件开发。我们用我们在图形分析方面的专业知识扩充了经典的数据挖掘方法,并将这些方法应用于大型数据集,如呼叫数据记录、银行交易和蜂窝塔使用情况。应用图形分析可以揭示出人类行为的意外模式、客户互动的涌现属性、未开发的市场机会,仅举几个例子。图形分析通常也是在不同数据集之间建立关系的唯一方法,这会导致分析独立数据集无法获得的复杂见解。我们的客户是大型跨国电信和金融公司。由于数据量巨大,我们需要一个可伸缩的解决方案来执行探索性的、交互式的图形数据分析。现有的解决方案不能满足我们的分析师和客户的需求,因此我们利用apachespark的强大功能来开发LynxKite图形分析平台。为什么选择Spark?LynxKite graph analytics platform是一个web应用程序,具有丰富、干净的用户界面,可用于探索和操作图形。一个关键的需求是允许用户以交互方式实时处理非常大的数据集大小。在评估了几个分布式计算框架之后,我们发现apachespark能够最好地满足我们对低延迟、易用性和生产准备的需求。借助Spark的力量,LynxKite只需点击几下,就可以按年龄和性别对客户进行分类,并可以直观地看到bucket内和bucket之间的通话数量。在一分钟内,重叠的社区可以在图表中识别出来,对于每个客户,我们可以找到他们所属的最同质社区的平均年龄。架构和对用户的好处LynxKite前端是一个运行在浏览器中的AngularJS web应用程序。它由playframeworkweb服务器提供服务,该服务器还接收来自前端的AJAX请求。web服务器进程也是apachespark驱动程序应用程序,并连接到我们的apachespark集群。当前端请求新数据时,例如图形的聚合视图,计算在apachespark集群上运行。此技术解决方案的亮点包括:延迟较低。许多计算在不到一秒钟内完成,这是我们用户的梦想成真。通过增加集群大小可以加快计算密集型操作的速度。当集群由云提供商托管时,可以轻松地调整其大小以适应当前的需要。简单就是容易。干净灵活的apachesparkscalaapi允许我们以非常简单和自然的方式实现图形分析方法。为了量化这一点,我们将我们的解决方案与通用图算法的开源实现(在其他框架上)进行了比较,以发现Spark解决方案在代码复杂度方面有十倍的优势。复杂是可能的。apachesparkscalaapi易于开发,使我们能够创建各种更复杂的分析方法。病毒模型可以利用节点之间的链路结构,基于一小部分具有观察属性的节点来估计不可观测的属性。时间和空间可以可视化,以探索产品使用的扩散或了解地图上的地理数据。部署很顺利。我们正在将LynxKite部署到许多客户机的私有Hadoop集群中。由于apachespark集成到Hadoop生态系统中,这是一个非常简单的过程。下一步是什么我们把赌注押在ApacheSpark这样的开创性技术上,实际上依赖于它的开发人员社区。我们发现Spark社区非常聪明、专业,并且对我们的问题、门票和拉取请求做出响应。我们非常感谢并希望能做出更多的贡献。我们期待着参加2015年西部火花峰会(旧金山,6月15-17日),届时我们将讨论在交互式环境下运行apachespark的技术挑战。更多信息请访问网站 免费试用Databricks。今天就开始吧