网站空间_这不是斯巴达百度云_试用

小七 2019年10月25日 21:23 141 0

宣布Databricks Runtime 5.4

Databricks很高兴地宣布Databricks Runtime 5.4的发布。这个版本包括apachespark2.4.3以及一些重要的改进和错误修复。我们建议所有用户升级以利用这个新的运行时版本。这篇博客文章简要介绍了一些新的高价值特性，这些特性简化了数据库的可管理性并提高了可用性。简化的可管理性我们继续在简化数据和资源管理的数据块方面取得进展。三角洲湖汽车优化-公众预览三角洲湖是以开放格式存储和管理数据的最佳场所。我们在公共预览中包含了一个名为自动优化的功能，它通过确定最佳文件大小和在写入时执行必要的压缩来消除管理开销。它被配置为一个单独的表属性，可以添加到现有的表中。优化的表允许您高效地查询这些表以进行分析。要尝试自动优化，请参考Databricks文档（Azure | AWS）。AWS Glue作为Databricks的元存储-公共预览我们与Amazon的数据服务团队合作，将胶水目录引入Databricks。Databricks运行时现在可以使用Glue作为Hive metastore的替代品。这提供了几个立竿见影的好处：通过跨多个Databricks工作区使用相同的粘合目录简化了可管理性。通过对Glue中的元数据使用IAM角色传递简化了集成的安全性。提供了对Amazon堆栈中元数据的更容易访问，以及对Glue中编目的数据的访问。 Glue因为metastore当前处于公共预览中，要开始使用这个特性，请参考Databricks文档以获取配置说明。提高可用性Databricks Runtime 5.4包含了几个改进可用性的新特性。Databricks Connect–全面可用Databricks Connect是一个在公共预览期间得到广泛采用的流行特性，它使得在dataricks运行时上从任何地方开发应用程序成为可能。这将支持两个主要用例：连接到数据块并通过您首选的IDE交互工作构建通过SDK连接到数据块的应用程序Databricks Connect允许您：插入现有的软件开发生命周期工作流。检查并在您首选的IDE或笔记本环境中进行本地开发。在Databricks集群上运行代码。有关深入的描述，请参阅Databricks Connect博客文章，该文章将进一步详细介绍。要试用Databricks Connect，请参阅入门文档（Azure | AWS）。使用Conda-beta的Databricks运行时利用Conda的强大功能来管理数据库中的Python依赖关系。Conda已经成为数据科学界首选的包和环境管理工具，我们很高兴能将此功能引入Databricks。Conda特别适合ML工作负载，而使用Conda的Databricks运行时允许您在用户会话范围内创建和管理Python环境。我们提供了两种简化的Databricks运行时路径来开始：databricks标准环境包括许多流行Python包的更新版本。此环境旨在作为在Databricks运行时上运行的现有笔记本电脑的替代品。这是默认的基于Databricks Conda的运行时环境。databricks minimal环境包含PySpark和databricks Python笔记本功能所需的最少包数。如果您想用各种Python包定制运行时，这个环境非常理想。要获得更深入的信息，请访问介绍Databricks Runtime with Conda的博客文章。要开始，请参考Databricks运行时和Conda文档（Azure | AWS）。图书馆实用程序-通用Databricks库实用程序使您能够在单个用户会话的范围内管理Python依赖关系。您可以在会话范围内添加、删除和更新库以及切换Python环境（如果使用新的Databricks运行时与Conda一起使用）。当您断开连接时，会话不会被持久化，而是被垃圾回收，并为将来的用户会话释放资源。这有几个重要的好处：在需要的时候和地点，从笔记本中安装库。这样就不需要在群集中全局安装库，然后才能附加需要这些库的笔记本。笔记本在集群之间是完全便携的。库环境的作用域仅限于单个会话。使用特定库的不同版本的多个笔记本可以连接到群集而不受干扰。同一集群上的不同用户可以添加和删除依赖关系，而不会影响其他用户。重新安装库时不需要重新启动群集。有关深入的示例，请访问介绍库实用程序的博客文章。有关Azure数据库的更多信息，请参阅AWS数据库库。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3229.html