云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

分布式存储_阿里云开放_新用户

小七 141 0

人工智能ai_如何租用_物联网系统方案

Google的clouddataproc是一个快速、易用、完全管理的云服务,可以以简单、经济的方式运行apachespark和apachehadoop集群。像Pandora和Outbrain这样的Google云平台(GCP)客户依赖Cloud Dataproc来运行Hadoop和Spark作业。

Cloud Dataproc的一个关键区别在于,它经过优化,可以在大约90秒内创建短暂的作业范围集群。这种部署速度意味着单个作业可以有一个专用集群,其中只包含运行作业所需的资源,该集群在作业完成时关闭。在CloudDataProc团队中,我们与无数为特定用例创建集群的客户合作。然而,并不是所有Hadoop和Spark工作负载都能通过临时的作业范围集群模型得到适当的服务。我们在CloudDataProc团队的目标是确保每个客户的用例都能得到解决。为此,我们很高兴与大家分享在非临时模型中使用Cloud Dataproc的技巧和建议。

Cloud Dataproc集群的工作原理

如果您刚刚开始,这里有一个关于Cloud Dataproc工作原理的快速入门。当您使用clouddataproc来创建集群时,您可以并行运行看似无限的计算量,因为您可以访问GCP的全球虚拟机群。因此,您不需要像在本地运行Hadoop或Spark集群那样管理纱线队列和隔离失控的作业。在下图中,您可以看到CloudDataProc如何为每个作业部署一个大小与该作业要求匹配的集群。