云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

对象存储_德阳网站建设_是什么

小七 141 0

数据块中的GPU加速

Databricks增加了对带有图形处理单元(gpu)的apachespark集群的支持,准备加速深度学习工作负载(阅读新闻稿)。由于Spark部署针对gpu进行了优化,再加上预先安装的库和示例,Databricks提供了一种利用gpu来增强图像处理、文本分析和其他机器学习任务的简单方法。用户将从深度学习、GPU机器的自动配置以及与Spark群集的平滑集成方面获得10倍的加速。该功能可根据要求提供,一般将在数周内提供。用gpu加速机器学习深度学习是一种非常强大的数据建模工具,但它的代价是昂贵的计算。gpu可以大大降低成本,因为它们支持高效的并行计算。为了证明这些好处,我们对一个简单的数值任务(核密度估计)进行了基准测试。我们比较了用Scala编写的优化代码,并将其运行在AWS(c3.8xlarge)中计算密集型机器上,与标准GPU硬件(g2.2xlarge)进行了比较。使用TensorFlow作为底层计算库,代码缩短了3倍,在GPU集群上运行的成本降低了4倍(以美元计)。关于达到这一水平性能的更多细节将在以后的博客文章中公布。在数据块中使用gpuDatabricks的GPU产品提供了与apachespark的紧密集成。在Databricks中创建GPU集群时,我们将Spark集群配置为使用GPU,并预先安装访问GPU硬件所需的库。此外,我们提供安装流行的深度学习库的脚本,以便您可以立即开始深度学习或其他GPU加速任务。以下是我们当前GPU产品的一些细节:amazonec2g2.2xlarge(1gpu)和g2.8xlarge(4gpu)实例类型。p2(1-16gpu)实例类型即将推出(更新:我们支持p2实例而不是G2实例,因为p2通常比G2提供更多的内存和GPU内核)。预装CUDA®和cuDNN库。在Spark集群的驱动和工作机器上都支持gpu。通过提供和自定义的init脚本,简化了深度学习库的安装。Databricks如何将Spark与GPU集成apachespark不提供现成的GPU集成。在数据块上使用gpu的一个主要好处是我们在配置Spark集群以利用gpu方面所做的工作。当您在Databricks上运行Spark时,您会注意到一些使您的生活更轻松的事情:群集设置:与主机上的显卡通信需要像CUDA和cuDNN这样的GPU硬件库。简单地下载和安装这些库需要时间,尤其是在基于云的产品中,这些产品会定期创建和删除集群。通过提供预先安装的库,Databricks将集群安装时间(以及EC2安装成本)减少了大约60%。Spark配置:我们配置GPU Spark集群以防止GPU设备上的争用。基本上,GPU上下文切换是昂贵的,并且GPU库通常针对运行单个任务进行优化。因此,减少每个执行器的Spark并行性将导致更高的吞吐量。集群管理:Databricks在安全的容器化环境中提供这些功能。我们将用户彼此隔离,并在启动集群时重用EC2实例,以最小化成本。在数据库上使用深度学习库Databricks用户可以利用许多深入学习的库。例如,上面的性能基准图使用了TensorFlow。我们已经发布了一个开源的Spark包TensorFrames,它集成了Spark和TensorFlow。蒂姆·亨特在欧洲峰会上了解更多。Databricks用户还可以利用其他流行的库,如Caffe。我们的后续博客文章将深入探讨更多细节和教程。入门如果您想开始深入学习数据库,请联系我们。我们正在制作示例笔记本,展示如何开始在Spark上使用GPU加速深度学习。同时,请查看我们的TensorFrames包和我们之前博客文章中的示例笔记本。注册我们的时事通讯,在Twitter上关注我们,当这个系列的下一个博客在几周内发布时,我们会收到通知!免费试用Databricks。今天就开始吧