云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

微软云_ppt模板百度云资源链接_测评

小七 141 0

为笔记本电脑引入Databricks库实用程序

作为Databricks运行时版本5.1的一部分,Databricks引入了一个新特性,Library Utilities for Notebooks。它允许您在笔记本中安装和管理Python依赖项。这有几个重要的好处:在需要的时候和地点,从笔记本中安装库。这样就不需要在群集中全局安装库,然后才能附加需要这些库的笔记本。笔记本在集群之间是完全可移植的(当然,只要运行Databricks5.1或更高版本)。库环境的作用域仅限于单个会话。使用特定库的不同版本的多个笔记本可以连接到群集而不受干扰。同一集群上的不同用户可以添加和删除依赖关系,而不会影响其他用户。重新安装库时不需要重新启动群集。分离笔记本时,会话将被垃圾回收。将释放集群上在该会话期间安装的库的资源。让我们仔细看看如何从笔记本中安装库。它既简单又灵活。笔记本中的所有库管理交互都使用Databricks实用程序(dbutils)。为了演示这个特性的强大功能,我将安装SciPy版本1.2.0,这个版本与我在这个集群上运行的Databricks运行时版本(dbr5.1)不同。您可以从DBFS(如果您在AWS上使用Databricks,则可以使用S3)作为文件路径进行安装,我们还提供了一种使用PyPI进行安装的方便方法。dbutils.library.installPyPI首先,让我们验证在我所连接的集群上安装的SciPy版本。我们可以看到这个SciPy集群的默认版本是0.18.1。这是集群范围内的默认值。任何连接到此群集并导入SciPy的笔记本都将获得此版本。我们有一个helper函数,它列出了所有安装的库,以及专门针对这个集群上附加的笔记本会话的范围。现在就开始吧。我们可以看到没有安装库,也没有专门针对这个笔记本设置范围。现在我要安装一个更高版本的SciPy,重新启动python解释器,然后运行我们之前运行过的helper函数,列出所有安装的库和专门用于这个笔记本会话的库。当使用list()函数时,此笔记本会话范围内的PyPI库显示为

--,并且(空)表示相应的部分没有规范。这也适用于wheel和egg安装构件,但是为了这个例子,我们将直接安装单个包。如果要重新安装库的其他版本,建议重新启动Python解释器。在使用新安装的库之前,必须在另一个单元中执行此操作。Dbutils提供了一个方便的方法来实现这一点。当解释器重新启动时,Python中的所有瞬态都将丢失。现在,当我们将SciPy导入这个笔记本时,我们可以验证我们使用的是更新的版本。即使是在Databricks运行时中预先打包的库,一旦Python解释器重新启动,安装在笔记本电脑上的版本始终优先。这些步骤可以合并。例如,笔记本顶部的单元格可以包括安装所有笔记本库依赖项以及重新启动解释器。当我将此笔记本从群集分离时,此笔记本范围的环境将在群集上被垃圾回收。从群集分离后,笔记本环境不会持续存在。我可以把这个库放到任何运行Databricks Runtime 5.1或更新版本的集群中,直接从笔记本中安装我的依赖项!除了完全可移植之外,同一集群上的不同笔记本会话可以使用不同版本的库,而不受任何干扰。从Databricks Runtime 5.1开始,目前正在预览用于笔记本的库实用程序。文件可以找到Azure:库实用程序图书馆实用程序 我们期待着您对如何改进此功能的任何反馈或建议。免费试用Databricks。今天就开始吧