云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

免备案CDN_培训建设网站_测评

小七 141 0

为Databricks开发人员引入命令行接口

介绍作为统一分析平台的一部分,Databricks工作区和Databricks文件系统(DBFS)是促进数据科学家和数据工程师之间协作的关键组件:Databricks工作区管理用户的笔记本,而DBFS管理文件;两者都有restapi端点来分别管理笔记本和文件。虽然restapi主要是为一般编程使用而设计的,但是对于restapi来说,不需要编写重复的样板代码,探索和操纵所需内容的即席任务就不那么容易了。因此,为了简化Databricks开发人员的这项任务,我们实现了一个与Databricks工作区和文件系统api交互的简单命令行界面。在我们针对Databricks开发人员的博客的第1部分中,我们概述了一些用例,其中您可以使用命令行界面与Databricks工作区交互并操作文件和文件夹。使用场景将笔记本签入版本控制系统(VCS)Databricks CLI最常见的用法之一是启用VCS的替代集成点。要将笔记本签入VCS,您需要一个规范的基于文本的笔记本文件。使用工作区API,您可以将笔记本导出和导入到这种基于文本的规范文件格式。Databricks CLI将这些api封装到一个易于使用的命令行界面中,并支持递归导入和导出,从而进一步构建了这种思想。例如,考虑一个场景,其中有两个用户的工作区和一个生产工作区:Alice和工作区a,Bob和工作区B,生产工作区P带有通过Databricks作业调度器运行的笔记本。在她的工作区A中开发代码之后,Alice可以使用databricks workspace export_dir将代码导出到git存储库,并启动一个pull请求。然后,Bob可以审阅并批准PR,之后Alice可以将她的更改合并到master中。这个合并将触发一个连续的交付作业,在这个作业中生产工作区P将启动databricks workspace import_dir,将所有新的更改引入生产。将小数据集复制到DBFSCLI的另一个用例是将小数据集导入DBFS。例如:(递归地)在本地文件系统和DBFS之间复制数据集/文件安装首先,通过在本地计算机上运行以下命令来安装CLI。pip install—升级databricks-cli请注意,Databricks CLI当前不能与python3一起运行。安装完成后,下一步是向CLI提供身份验证信息。第一种也是推荐的方法是使用从Databricks生成的访问令牌。为此,运行databricks configure--token。第二种方法是使用用户名和密码对。为此,运行databricks configure并按照提示进行操作。按照提示操作后,您的访问凭据将存储在~/.databrickscfg文件中。工作区CLI示例通过运行databricks Workspace-h,可以列出为Workspace CLI实现的命令。为了使工作区CLI更容易使用,请随意将databricks workspace别名为较短的名称。有关详细信息,请参考别名命令组和工作区API。$databricks工作区-h用法:databricks workspace[OPTIONS]命令[ARGS]。。。与Databricks工作区交互的实用程序。工作区路径必须是绝对的,并以"/"为前缀。选项:-v、 --版本-h、 --帮助显示此消息并退出。命令:删除从数据块中删除对象。。。导出从Databricks工作区导出文件。。。export\u dir递归地从。。。导入将文件从本地导入到数据库。。。导入目录递归地从本地导入目录到。。。列出Databricks工作区中的列表对象ls列出Databricks工作区中的对象mkdirs在Databricks工作区中创建目录。rm从数据库中删除对象。。。列出工作区文件将工作区目录导出到本地文件系统databricks workspace export_dir命令将从databricks工作区递归导出一个目录到本地文件系统。仅导出笔记本,导出时,笔记本的名称将附加相应的扩展名(.scala、.py、.sql、.R))。导入笔记本的本地目录类似地,databricks workspace import_dir命令将从本地文件系统递归地导入一个目录到databricks工作区。只导入扩展名为.scala、.py、.sql、.r、.r的目录和文件。导入时,这些扩展名将从笔记本的名称中删除。若要覆盖目标路径上的现有笔记本,必须添加标志-o。DBFS CLI示例dbfscli实现的命令可以通过运行databricks fs-h列出。命令是通过附加到databricks fs来运行的,所有DBFS路径都应该以DBFS:/作为前缀。为了减少命令的冗长性,我们继续将dbfs命名为databricks-fs。有关详细信息,请参考dbfsapi。$databricks fs-h用法:databricks fs[OPTIONS]命令[ARGS]。。。与DBFS交互的实用程序。DBFS路径都有前缀使用dbfs:/。本地路径可以是绝对路径或本地路径。选项:-v、 --版本-h、 --帮助显示此消息并退出。命令:配置cp在DBFS之间复制文件。ls列出DBFS中的文件。mkdirs在DBFS中创建目录。mv在两个DBFS路径之间移动文件。rm从dbfs删除文件。将文件复制到DBFS可以逐个文件或递归地将文件从本地主机复制到DBFS。例如,要将CSV复制到DBFS,可以运行以下命令。对于递归复制,请添加-r标志。从DBFS复制文件类似地,可以将文件从DBFS复制回本地文件系统。下一步是什么我们正在积极为开发人员开发Databricks CLI的新特性。我们路线图上的下一个项目是支持集群和作业api端点。我们将在本系列博客的第二部分介绍。本着开源apachespark传统的精神,CLI的源代码在Github上发布。如果您对某个功能有反馈,请在我们的Github项目中留下问题。今天在Databricks上试试这个。免费试用Databricks。今天就开始吧