金山云_搜狐云主机_哪个好

小七 2019年10月25日 21:23 141 0

应用焦点：阿尔卑斯数据实验室

这篇文章是由我们在阿尔卑斯数据实验室的朋友客座撰写的，这是"应用聚光灯"系列的一部分，重点介绍了Databricks"ApacheSpark认证"计划中的创新应用程序。每个人都知道在硅谷招聘工程师和数据科学家有多难。在阿尔卑斯数据实验室，我们认为我们所做的是非常有趣和富有挑战性的，但我们仍然需要与其他初创企业以及大型互联网公司竞争，以吸引最优秀的人才。有一件事可以帮助你说你正在使用最具创新性和最强大的技术。去年，我面试了一位有着丰富机器学习背景的天才工程师。他说，他最想做的一件事就是与Apache Spark合作。"我能在阿尔卑斯山做到吗？"他问道。如果是在一年前，我会说"当然……在某个时候。"但与此同时，我在伯克利见过AMPLab研究团队的几位成员，对他们构建平台和生态系统的成熟方法印象深刻。我见过很多公司在他们的开发集群上安装Spark，很明显这是一项值得关注的技术。在很短的时间内，它从实验变成了现实。现在阿尔卑斯山输油管道的前景在问我它是否在路线图上。所以，是的，我告诉了我的候选人。"从第一天开始，你就要为Spark工作了。"上周，阿尔卑斯在GigaOM宣布，它是首批利用Spark构建预测模型的分析公司之一。我们演示了Alpine引擎在Pivotal的Analytics Workbench上运行，它在不到50秒的时间内对5000万行运行迭代分类算法（logistic回归）。此外，我们在Spark上获得了Databricks团队的正式认证。很荣幸能与他们和伯克利的研究团队合作。我们认为他们的技术将成为数据科学领先平台的有力竞争者。火花对我们来说不仅仅是速度。整个生态系统代表了一个令人兴奋的数据处理范例。不过，在内存中缓存数据的核心功能是我们的首要考虑，我们的迭代算法已经被证明可以提高一个甚至两个数量级的速度（再次感谢这个关键的集群）。我们在阿尔卑斯大学一直有这样一句咒语："避免多次通过数据！"我们还设计了许多机器学习算法，以避免扫描数据太多次，将计算打包到每个MapReduce作业中，就像服务生堆积如山，试图一次性清理一张桌子。但我们很少能完全避免。有了Spark，当系统重新使用以前看到的数据时，看着进度条快速移动是非常令人满意的。另一件让我们工程师兴奋的事情是Spark的MLLib，它是在Spark运行时之上编写的机器学习库。Alpine一直认为机器学习算法应该是开源的。（我帮助启动了数据库分析函数的MADlib库，Alpine现在广泛使用它。）所以我们现在开始将我们的一些代码贡献回MLLib中。而且，我们认为MLLib和MLI有可能成为一个更通用的开源机器学习库。因此，我要祝贺阿尔卑斯团队帮助我们的用户带来了Spark的力量，我也要祝贺Spark团队和Databricks使之成为可能！免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3568.html