云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

虚拟主机_pdb数据库_便宜的

小七 141 0

起泡水=H20+阿帕奇Spark

这篇文章是由我们在0xData的朋友们客串撰写的,讨论了Sparking Water的发布——他们的H20产品与ApacheSpark平台的集成。H20–Apache Spark上的杀手级应用程序记忆中的大数据已经成熟。apachespark平台及其优雅的API为构建数据管道提供了一个统一的平台。H2O专注于可伸缩机器学习作为大数据应用的API。Spark+H2O将H2O的功能与Spark平台结合在一起,融合了数据科学和开发人员社区的愿望。H2O是Spark的杀手级应用。背景在过去的几年里,我们看到Matei和Spark背后的团队构建了一个蓬勃发展的开源运动和一个为内存大数据Spark优化的伟大开发平台。同时,H2O构建了一个伟大的开源产品,客户群不断增长,专注于可伸缩的机器学习和交互式数据科学。在过去的几个月里,Spark和H2O团队开始集思广益,讨论如何将H2O的机器学习能力与Spark平台的功能最好地结合起来。结果是:起泡水。起泡水用户可以在一次调用和处理中充分利用Spark——它优雅的API、RDD、多租户上下文和H2O的速度、列式压缩以及全功能的机器学习和深度学习算法。Spark的一个主要优点是它的统一性,允许在单个系统中端到端地构建API。这种协作旨在无缝地使H20的高级功能成为数据管道的一部分。这个旅程的第一步是通过超光速子和RDD实现内存共享。该路线图包括更深入的集成,其中H2O的柱状压缩功能可以通过"H2ORDD"进行本机利用。今天,数据被解析并通过超光速子在火花和水之间交换。用户可以通过SQL和ML在同一个上下文中交互地查询大数据。Sparking Water为Spark的用户社区提供了H2O的深度学习和高级算法。H2O作为杀手级应用程序为Spark平台提供了一个健壮的机器学习引擎和API。这将进一步授权Spark上的应用程序开发人员构建智能化和智能化的应用程序。MLlib和H2O:开源的胜利!MLlib是一个使用Spark直接构建的流行算法的高效实现库。我们认为,企业客户应该选择在Spark环境下满足其需求的最佳工具。随着时间的推移,H2O将加速社区朝着生产就绪的可扩展机器学习的方向努力。H2O中快速、功能齐全的算法将增加R、MLlib、Mahout和其他领域日益增长的开源工作,打乱机器学习和预测分析领域的封闭和专有供应商。H2O与Spark其他功能的自然整合对企业客户来说是一个决定性的胜利。更多信息第一次汽水会议的幻灯片汽水代码在这里安装和测试说明演示代码包裹水。起泡。演示进口水框架进口水.util.Log进口十六进制gbm.gbm调用.gbm公司对象AirlinesDemo扩展演示{覆盖def run(conf:DemoConf):单位={//准备数据//数据集val dataset="数据/allyears2k_标题.csv"//行分析器val rowParser=AirlinesParser//SQL的表名val tableName="航空公司表"//选择目的地==SFO的所有航班val query="""从airlines\u表中选择*其中dest="SFO""""//连接到shark集群,在前列腺上进行查询,将数据传输到H2O中瓦尔框架:框架=executeSpark[Airlines](数据集,行解析器,形态提取器,表名,查询,本地=本地配置)日志信息("从Spark提取帧:")日志信息(如果(框架!空值)帧到字符串+"\n行:"+框架.numRows()其他"")//现在直接通过javaapi对GBM进行阻塞调用val模型=gbm(框架,帧.vec("isDepDelayed"),100,真)日志信息("模型已生成!")}override def name:String="航空公司"}免费试用Databricks。今天就开始吧