云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

金山云_搜狐云主机_哪个好

小七 141 0

应用焦点:阿尔卑斯数据实验室

这篇文章是由我们在阿尔卑斯数据实验室的朋友客座撰写的,这是"应用聚光灯"系列的一部分,重点介绍了Databricks"ApacheSpark认证"计划中的创新应用程序。每个人都知道在硅谷招聘工程师和数据科学家有多难。在阿尔卑斯数据实验室,我们认为我们所做的是非常有趣和富有挑战性的,但我们仍然需要与其他初创企业以及大型互联网公司竞争,以吸引最优秀的人才。有一件事可以帮助你说你正在使用最具创新性和最强大的技术。去年,我面试了一位有着丰富机器学习背景的天才工程师。他说,他最想做的一件事就是与Apache Spark合作。"我能在阿尔卑斯山做到吗?"他问道。如果是在一年前,我会说"当然……在某个时候。"但与此同时,我在伯克利见过AMPLab研究团队的几位成员,对他们构建平台和生态系统的成熟方法印象深刻。我见过很多公司在他们的开发集群上安装Spark,很明显这是一项值得关注的技术。在很短的时间内,它从实验变成了现实。现在阿尔卑斯山输油管道的前景在问我它是否在路线图上。所以,是的,我告诉了我的候选人。"从第一天开始,你就要为Spark工作了。"上周,阿尔卑斯在GigaOM宣布,它是首批利用Spark构建预测模型的分析公司之一。我们演示了Alpine引擎在Pivotal的Analytics Workbench上运行,它在不到50秒的时间内对5000万行运行迭代分类算法(logistic回归)。此外,我们在Spark上获得了Databricks团队的正式认证。很荣幸能与他们和伯克利的研究团队合作。我们认为他们的技术将成为数据科学领先平台的有力竞争者。火花对我们来说不仅仅是速度。整个生态系统代表了一个令人兴奋的数据处理范例。不过,在内存中缓存数据的核心功能是我们的首要考虑,我们的迭代算法已经被证明可以提高一个甚至两个数量级的速度(再次感谢这个关键的集群)。我们在阿尔卑斯大学一直有这样一句咒语:"避免多次通过数据!"我们还设计了许多机器学习算法,以避免扫描数据太多次,将计算打包到每个MapReduce作业中,就像服务生堆积如山,试图一次性清理一张桌子。但我们很少能完全避免。有了Spark,当系统重新使用以前看到的数据时,看着进度条快速移动是非常令人满意的。另一件让我们工程师兴奋的事情是Spark的MLLib,它是在Spark运行时之上编写的机器学习库。Alpine一直认为机器学习算法应该是开源的。(我帮助启动了数据库分析函数的MADlib库,Alpine现在广泛使用它。)所以我们现在开始将我们的一些代码贡献回MLLib中。而且,我们认为MLLib和MLI有可能成为一个更通用的开源机器学习库。因此,我要祝贺阿尔卑斯团队帮助我们的用户带来了Spark的力量,我也要祝贺Spark团队和Databricks使之成为可能!免费试用Databricks。今天就开始吧