云数据库_阿里云企业邮箱怎么用_促销

小七 2019年10月25日 21:23 141 0

发布用于机器学习的Databricks Runtime 5.5和Runtime 5.5

Databricks很高兴地宣布Databricks Runtime 5.5的发布。这个版本包括Apache Spark 2.4.3以及一些重要的改进和错误修复，如最新发行说明[Azure | AWS]中所述。我们建议所有用户升级以利用此新的运行时版本。此博客文章简要概述了一些新的高价值特性，提高性能，兼容性，可管理性和简化机器学习数据库。使用实例池加快集群启动速度–公共预览Presto和Amazon Athena与Delta Lake的兼容性——AWS的公开预览AWS Glue作为Databricks Metastore-一般可用DBFS FUSE v2–私人预览R笔记本中的机密API计划在Databricks Runtime 6.0中取消对Python2的支持用于机器学习的Databricks运行时的增强功能主要套餐升级HorovodRunner的单节点操作使用改进的二进制文件数据源和标量迭代器Pandas UDF的更快的模型推理管道-公共预览使用实例池加快集群启动速度–公共预览在Databricks Runtime 5.5中，我们预览了一个名为Instance Pools的特性，它大大减少了启动Databricks集群所需的时间。现在，启动一个新的集群需要从云提供商那里获取虚拟机，这可能需要几分钟的时间。使用实例池，您可以保留一组虚拟机，以便可以使用它们快速启动新的集群。您只需支付云提供商的基础设施成本，而虚拟机不在Databricks集群中使用，并且池可以缩小到零实例，从而在没有工作负载的情况下完全避免了成本。Presto和Amazon Athena与Delta Lake的兼容性——AWS的公开预览从Databricks Runtime 5.5开始，您可以使Delta Lake表可用于Presto和Amazon Athena的查询。可以像查询表一样查询这些表，数据以Parquet等格式存储。此功能使用清单文件实现。当使用清单文件在配置单元元存储中定义外部表时，Presto和Amazon Athena使用清单中的文件列表，而不是通过目录列表查找文件。AWS Glue作为Databricks Metastore-一般可用我们已经与Amazon Web Services合作，将AWS胶水引入数据块。Databricks运行时现在可以使用AWS Glue作为配置单元元存储的替换项。DBFS FUSE v2–私人预览Databricks文件系统（DBFS）是位于云存储之上的一层，它抽象出底层云存储提供者的特性。现有的dbfsfuse客户机允许进程使用本地文件系统api访问DBFS。然而，它的设计主要是为了方便而不是为了性能。我们在Databricks Runtime 5.3中为Azure和Databricks Runtime 5.4中的AWS在位置文件：/dbfs/ml中引入了高性能的FUSE存储。该特性是在私有预览中；要尝试它，请联系Databricks支持人员。R笔记本中的机密APIDatabricks Secrets API[Azure | AWS]让您无需硬编码就可以将机密注入笔记本电脑。从Databricks Runtime 5.5起，除了对Python和Scala笔记本的现有支持之外，R笔记本中还提供了这个API。你可以使用dbutils.secrets.get获取秘密的功能。秘密在打印到笔记本电脑之前会被编辑。计划在Databricks Runtime 6.0中取消对Python2的支持Python2将在2020年走向生命的尽头。许多受欢迎的项目已经宣布，他们将在2020年或之前停止支持Python2，包括最近发布的Spark 3.0。我们已经考虑了我们的客户群，并计划从Databricks Runtime 6.0开始取消对Python2的支持，该版本将于2019年晚些时候发布。Databricks Runtime 6.0及更新版本仅支持Python3。Databricks Runtime 4.x和5.x将继续支持Python2和3。此外，我们计划为Databricks Runtime 5.x的最新版本提供长期支持（LTS）。您可以继续在LTS Databricks Runtime 5.x中运行Python2代码。我们将很快宣布哪个Databricks Runtime 5.x将是LTS。用于机器学习的Databricks运行时的增强功能主要套餐升级使用Databricks Runtime 5.5 for Machine Learning，我们对软件包进行了重大升级，包括：添加了MLflow 1.0 Python包Tensorflow从1.12.0升级到1.13.1Pythorch从0.4.1升级到1.1.0scikit learn已从0.19.1升级到0.20.3HorovodRunner的单节点多GPU操作我们使HorovodRunner能够利用多GPU驱动程序的集群。以前，要使用多个gpu，HorovodRunner用户必须启动一个驱动程序和至少一个工人。通过这种改变，客户现在可以在单个节点（即多个GPU节点）内分发培训，从而更有效地使用计算资源。HorovodRunner仅在用于ML的Databricks运行时中可用。使用改进的二进制文件数据源和标量迭代器Pandas UDF的更快的模型推理管道-公共预览机器学习任务，特别是在图像和视频领域，经常需要对大量的文件进行操作。在Databricks Runtime 5.4中，我们提供了二进制文件数据源来帮助ETL将任意文件（如图像）ETL到Spark表中。在Databricks Runtime 5.5中，我们添加了一个选项recursiveFileLookup，用于从嵌套的输入目录递归地加载文件。请参阅二进制文件数据源[Azure | AWS]。二进制文件数据源使您能够使用标量Pandas UDF从Spark表并行运行模型推理任务。但是，您可能必须为每个记录批处理初始化模型，这会带来开销。在Databricks Runtime 5.5中，我们从ApacheSparkMaster中备份了一个名为"标量迭代器"的新Pandas UDF类型。有了它，您只需初始化一次模型，并将模型应用于多个输入批处理，这可以使ResNet50等模型的速度提高2-3倍。请参阅标量迭代器UDF[Azure | AWS]。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3237.html