云网站服务器_国内数据云存储_移动云数据库服务器主机-搜集站云

企业云_如何租用_云主机能做什么

小七 141 0

企业云_如何租用_云主机能做什么

Python已经迅速巩固了自己的地位,成为数据科学家为分析和机器学习相关用例准备、处理和分析数据的顶级语言之一。Dask是一个用于并行计算的Python库,其api与Pandas、NumPy和sciketlearn等最流行的Python数据科学库类似。Dask的并行处理为机器学习和数据处理任务带来了更高的效率和更低的延迟。今天,我们很高兴地宣布Dask支持Dataproc,企业正版软件,Google云的完全管理apachehadoop和apachespark服务,通过一个新的Dask初始化操作。通过这个Dataproc初始化操作,我们使数据科学家更容易在Dataproc集群上启动并运行Dask。

今天,Dask是PyData和SciPy社区中最常用的并行框架。Dask的设计可以从笔记本电脑cpu上的并行工作负载扩展到云集群中的数千个节点。结合NVIDIA开发的RAPIDS框架,人工智能关键技术,您可以利用CPU和NVIDIA GPU的并行处理能力

Dask是为Python数据科学社区构建的

Dask是在NumPy、Pandas、Scikit Learn和其他流行的Python数据科学库之上构建的。因此,这些api被精心设计来帮助您无缝地从这些核心库过渡到每个核心库的可伸缩Dask版本。Dask文档展示了一些关于这些库如何转换为Dask的优秀示例,您可以在这里找到。

Dask是如何使用的

Dask正被处理各种问题的数据科学团队使用,包括高性能计算、气候科学、银行和成像问题。此外,淘客推广平台,Dask还非常适合处理商业智能问题。有关团队在使用Dask方面取得进展的问题列表,请参见此处。

什么在Dataproc上使用Dask

Dask提供了在大数据上运行数据转换作业的快速简便方法。使用Dask Yarn(一种基于Skein的工具,企业管理类软件,用于在Yarn上运行Dask应用程序),贵阳大数据,任务调度被降级到Yarn调度器,从而使您无需管理集群上的另一组软件。Yarn负责分配完成作业所需的资源管理。此外,您还可以访问Dataproc服务提供的全套功能,包括自动缩放、Jupyter组件和组件网关,以便通过Jupyter笔记本提交作业。

Dask支持从GCS和HDFS等多种不同来源加载数据,以及CSV、parquet和avro等多种不同的数据类型。这些都由不同的项目支持,例如PyArrow、GCSFS、FastParquet和FastAvro,所有这些项目都包含在Dataproc中。

此外,您还可以在Dataproc上配置Dask,以使用Dask及其本机调度程序,与Yarn相反,

使用Dask创建Dataproc集群

您可以通过选择一个区域来创建Dataproc集群,该区域具有Dask初始化操作、Jupyter可选组件和使用以下命令启用的组件网关。