云网站服务器_国内数据云存储_移动云数据库服务器主机-搜集站云

云数据储存_网站_物联网工程学校

小七 141 0

Dataproc是一种快速、易于使用、完全托管的云服务,用于以更简单、更经济高效的方式运行开放源代码,如apachespark、Presto和apachehadoop集群。今天,随着Dataproc Hub的普遍可用性,以及我们机器学习初始化行动的启动,我们使数据科学家能够更轻松地使用由Spark支持的、由it管理的、基于开源笔记本的机器学习和水平可伸缩计算。

我们的企业客户在Dataproc上运行机器学习需要IT和数据科学家之间的角色分离。使用Dataproc Hub,IT管理员可以预先批准和创建Dataproc配置,以满足成本和治理约束。然后,数据科学家可以创建个人工作区,由IT预先批准的配置提供支持,只需单击一下即可启动可扩展的分布式Dataproc集群。Jupyter笔记本使数据科学家能够交互式地探索和准备数据,并使用Spark和其他OSS机器学习库训练他们的模型。这些按需Dataproc集群可以配置自动缩放和自动删除策略,并且可以手动或自动启动和停止。我们从企业客户那里得到了非常积极的反馈,特别是在角色分离方面,我们希望通过新的机器学习初始化操作使Dataproc的设置更加容易,我们已经观察到了Dataproc数据科学配置的共同需求,我们现在将这些配置打包在机器学习初始化操作中。您可以进一步自定义初始化操作并添加自己的库来构建自定义映像。这简化了Dataproc-ML集群的创建,同时为数据科学家提供了一个集群:

为机器学习构建Dataproc集群时的注意事项

数据科学家主要从数据事件推断业务事件。然后,数据科学家与企业主合作,大数据怎么查询,开发假设并建立模型,利用机器学习产生可操作的见解。理解业务事件如何转化为数据事件的能力是成功的关键因素。我们的企业用户在选择合适的Dataproc OSS机器学习环境之前需要考虑很多因素。考虑点包括:

数据访问:数据科学家需要访问长期历史数据,什么是云服务器,以进行业务事件推断并生成可操作的见解。接近处理环境的大规模数据访问对于大规模分析和机器学习至关重要。

Dataproc包括预定义的开源连接器,用于访问云存储和BigQuery存储上的数据。使用这些连接器,Dataproc Spark jobs可以无缝地访问云存储中各种开源数据格式(Avro、Parquet、CSV等)的数据,也可以访问BigQuery存储中本机BigQuery格式的数据。

基础设施:数据科学家需要灵活地为机器学习选择适当的计算基础设施。这个计算基础设施包括VM类型选择、相关内存以及用于加速处理的附加gpu和tpu。从众多选项中进行选择的能力对于优化性能、结果和成本至关重要。

Dataproc提供将K80、P100、V100、P4或T4 Nvidia GPU连接到Dataproc compute虚拟机的能力。RAPIDs库利用这些gpu提供性能提升,以选择Spark工作负载。

处理环境:有许多开源机器学习处理环境,如Spark ML、DASK、RAPIDs、Python、R、TensorFlow等。通常数据科学家确实有自己的偏好,所以我们专注于尽可能多地启用开源处理环境。同时,数据科学家通常会添加自定义库来增强他们的数据处理和机器学习能力。

Dataproc支持Spark和DASK处理框架,用于大规模运行机器学习。sparkml附带了机器学习算法的标准实现,您可以在已经存储在云存储或BigQuery上的数据集上使用它们。一些数据科学家更喜欢用Python库中的ML实现来构建模型。本质上,交换两条语句可以使您从标准Python库切换到DASK。您可以选择适当的处理环境来满足您特定的机器学习需求。

编排:由于模型优化或重新调整,ML工作流中需要许多迭代。数据科学家需要一种简单的方法来自动化数据处理和机器学习图形。其中一种设计模式是构建用于建模的机器学习管道,微淘客,另一种方法是安排交互式建模中使用的笔记本。

Dataproc工作流模板允许您创建简单的工作流,Cloud Composer可用于编排复杂的机器学习管道。

元数据管理:Dataproc Metastore使您能够将关联的业务元数据与表元数据一起存储,以便于发现和通信。Dataproc Metastore目前处于私有预览中,它可以在Google云上统一查看开放源代码表。

笔记本用户体验:笔记本允许您在Dataproc集群上以交互方式运行工作负载。数据科学家在Dataproc上使用笔记本有两种选择:

数据科学家需要深入了解数据如何代表业务事务和事件,以及利用OSS机器学习和深度学习、笔记本和Dataproc Hub中的创新来提供可操作的见解的能力。我们在谷歌专注于理解底层框架OSS的复杂性和局限性,以及基础设施功能,并积极致力于简化OSS机器学习体验,国内云服务器,以便您能够更多地关注了解您的业务和生成可操作的见解,那云,而不是管理用于生成这些见解的工具和功能。

请查看Dataproc,让我们知道您的想法,并帮助我们构建简单、可定制、易于使用的下一代OSS机器学习体验。