分布式存储_阿里云开放_新用户

小七 2019年10月25日 21:23 141 0

人工智能ai_如何租用_物联网系统方案

Google的clouddataproc是一个快速、易用、完全管理的云服务，可以以简单、经济的方式运行apachespark和apachehadoop集群。像Pandora和Outbrain这样的Google云平台（GCP）客户依赖Cloud Dataproc来运行Hadoop和Spark作业。

Cloud Dataproc的一个关键区别在于，它经过优化，可以在大约90秒内创建短暂的作业范围集群。这种部署速度意味着单个作业可以有一个专用集群，其中只包含运行作业所需的资源，该集群在作业完成时关闭。在CloudDataProc团队中，我们与无数为特定用例创建集群的客户合作。然而，并不是所有Hadoop和Spark工作负载都能通过临时的作业范围集群模型得到适当的服务。我们在CloudDataProc团队的目标是确保每个客户的用例都能得到解决。为此，我们很高兴与大家分享在非临时模型中使用Cloud Dataproc的技巧和建议。

Cloud Dataproc集群的工作原理

如果您刚刚开始，这里有一个关于Cloud Dataproc工作原理的快速入门。当您使用clouddataproc来创建集群时，您可以并行运行看似无限的计算量，因为您可以访问GCP的全球虚拟机群。因此，您不需要像在本地运行Hadoop或Spark集群那样管理纱线队列和隔离失控的作业。在下图中，您可以看到CloudDataProc如何为每个作业部署一个大小与该作业要求匹配的集群。

本文地址： /shujuku/22060.html