对象存储_德阳网站建设_是什么

小七 2019年10月25日 21:23 141 0

数据块中的GPU加速

Databricks增加了对带有图形处理单元（gpu）的apachespark集群的支持，准备加速深度学习工作负载（阅读新闻稿）。由于Spark部署针对gpu进行了优化，再加上预先安装的库和示例，Databricks提供了一种利用gpu来增强图像处理、文本分析和其他机器学习任务的简单方法。用户将从深度学习、GPU机器的自动配置以及与Spark群集的平滑集成方面获得10倍的加速。该功能可根据要求提供，一般将在数周内提供。用gpu加速机器学习深度学习是一种非常强大的数据建模工具，但它的代价是昂贵的计算。gpu可以大大降低成本，因为它们支持高效的并行计算。为了证明这些好处，我们对一个简单的数值任务（核密度估计）进行了基准测试。我们比较了用Scala编写的优化代码，并将其运行在AWS（c3.8xlarge）中计算密集型机器上，与标准GPU硬件（g2.2xlarge）进行了比较。使用TensorFlow作为底层计算库，代码缩短了3倍，在GPU集群上运行的成本降低了4倍（以美元计）。关于达到这一水平性能的更多细节将在以后的博客文章中公布。在数据块中使用gpuDatabricks的GPU产品提供了与apachespark的紧密集成。在Databricks中创建GPU集群时，我们将Spark集群配置为使用GPU，并预先安装访问GPU硬件所需的库。此外，我们提供安装流行的深度学习库的脚本，以便您可以立即开始深度学习或其他GPU加速任务。以下是我们当前GPU产品的一些细节：amazonec2g2.2xlarge（1gpu）和g2.8xlarge（4gpu）实例类型。p2（1-16gpu）实例类型即将推出（更新：我们支持p2实例而不是G2实例，因为p2通常比G2提供更多的内存和GPU内核）。预装CUDA®和cuDNN库。在Spark集群的驱动和工作机器上都支持gpu。通过提供和自定义的init脚本，简化了深度学习库的安装。Databricks如何将Spark与GPU集成apachespark不提供现成的GPU集成。在数据块上使用gpu的一个主要好处是我们在配置Spark集群以利用gpu方面所做的工作。当您在Databricks上运行Spark时，您会注意到一些使您的生活更轻松的事情：群集设置：与主机上的显卡通信需要像CUDA和cuDNN这样的GPU硬件库。简单地下载和安装这些库需要时间，尤其是在基于云的产品中，这些产品会定期创建和删除集群。通过提供预先安装的库，Databricks将集群安装时间（以及EC2安装成本）减少了大约60%。Spark配置：我们配置GPU Spark集群以防止GPU设备上的争用。基本上，GPU上下文切换是昂贵的，并且GPU库通常针对运行单个任务进行优化。因此，减少每个执行器的Spark并行性将导致更高的吞吐量。集群管理：Databricks在安全的容器化环境中提供这些功能。我们将用户彼此隔离，并在启动集群时重用EC2实例，以最小化成本。在数据库上使用深度学习库Databricks用户可以利用许多深入学习的库。例如，上面的性能基准图使用了TensorFlow。我们已经发布了一个开源的Spark包TensorFrames，它集成了Spark和TensorFlow。蒂姆·亨特在欧洲峰会上了解更多。Databricks用户还可以利用其他流行的库，如Caffe。我们的后续博客文章将深入探讨更多细节和教程。入门如果您想开始深入学习数据库，请联系我们。我们正在制作示例笔记本，展示如何开始在Spark上使用GPU加速深度学习。同时，请查看我们的TensorFrames包和我们之前博客文章中的示例笔记本。注册我们的时事通讯，在Twitter上关注我们，当这个系列的下一个博客在几周内发布时，我们会收到通知！免费试用Databricks。今天就开始吧

本文地址： /zhuji/3342.html