云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

云数据库_阿里云企业邮箱怎么用_促销

小七 141 0

发布用于机器学习的Databricks Runtime 5.5和Runtime 5.5

Databricks很高兴地宣布Databricks Runtime 5.5的发布。这个版本包括Apache Spark 2.4.3以及一些重要的改进和错误修复,如最新发行说明[Azure | AWS]中所述。我们建议所有用户升级以利用此新的运行时版本。此博客文章简要概述了一些新的高价值特性,提高性能,兼容性,可管理性和简化机器学习数据库。使用实例池加快集群启动速度–公共预览Presto和Amazon Athena与Delta Lake的兼容性——AWS的公开预览AWS Glue作为Databricks Metastore-一般可用DBFS FUSE v2–私人预览R笔记本中的机密API计划在Databricks Runtime 6.0中取消对Python2的支持用于机器学习的Databricks运行时的增强功能主要套餐升级HorovodRunner的单节点操作使用改进的二进制文件数据源和标量迭代器Pandas UDF的更快的模型推理管道-公共预览 使用实例池加快集群启动速度–公共预览在Databricks Runtime 5.5中,我们预览了一个名为Instance Pools的特性,它大大减少了启动Databricks集群所需的时间。现在,启动一个新的集群需要从云提供商那里获取虚拟机,这可能需要几分钟的时间。使用实例池,您可以保留一组虚拟机,以便可以使用它们快速启动新的集群。您只需支付云提供商的基础设施成本,而虚拟机不在Databricks集群中使用,并且池可以缩小到零实例,从而在没有工作负载的情况下完全避免了成本。Presto和Amazon Athena与Delta Lake的兼容性——AWS的公开预览从Databricks Runtime 5.5开始,您可以使Delta Lake表可用于Presto和Amazon Athena的查询。可以像查询表一样查询这些表,数据以Parquet等格式存储。此功能使用清单文件实现。当使用清单文件在配置单元元存储中定义外部表时,Presto和Amazon Athena使用清单中的文件列表,而不是通过目录列表查找文件。AWS Glue作为Databricks Metastore-一般可用我们已经与Amazon Web Services合作,将AWS胶水引入数据块。Databricks运行时现在可以使用AWS Glue作为配置单元元存储的替换项。DBFS FUSE v2–私人预览Databricks文件系统(DBFS)是位于云存储之上的一层,它抽象出底层云存储提供者的特性。现有的dbfsfuse客户机允许进程使用本地文件系统api访问DBFS。然而,它的设计主要是为了方便而不是为了性能。我们在Databricks Runtime 5.3中为Azure和Databricks Runtime 5.4中的AWS在位置文件:/dbfs/ml中引入了高性能的FUSE存储。该特性是在私有预览中;要尝试它,请联系Databricks支持人员。R笔记本中的机密APIDatabricks Secrets API[Azure | AWS]让您无需硬编码就可以将机密注入笔记本电脑。从Databricks Runtime 5.5起,除了对Python和Scala笔记本的现有支持之外,R笔记本中还提供了这个API。你可以使用dbutils.secrets.get获取秘密的功能。秘密在打印到笔记本电脑之前会被编辑。计划在Databricks Runtime 6.0中取消对Python2的支持Python2将在2020年走向生命的尽头。许多受欢迎的项目已经宣布,他们将在2020年或之前停止支持Python2,包括最近发布的Spark 3.0。我们已经考虑了我们的客户群,并计划从Databricks Runtime 6.0开始取消对Python2的支持,该版本将于2019年晚些时候发布。Databricks Runtime 6.0及更新版本仅支持Python3。Databricks Runtime 4.x和5.x将继续支持Python2和3。此外,我们计划为Databricks Runtime 5.x的最新版本提供长期支持(LTS)。您可以继续在LTS Databricks Runtime 5.x中运行Python2代码。我们将很快宣布哪个Databricks Runtime 5.x将是LTS。用于机器学习的Databricks运行时的增强功能 主要套餐升级使用Databricks Runtime 5.5 for Machine Learning,我们对软件包进行了重大升级,包括:添加了MLflow 1.0 Python包Tensorflow从1.12.0升级到1.13.1Pythorch从0.4.1升级到1.1.0scikit learn已从0.19.1升级到0.20.3HorovodRunner的单节点多GPU操作我们使HorovodRunner能够利用多GPU驱动程序的集群。以前,要使用多个gpu,HorovodRunner用户必须启动一个驱动程序和至少一个工人。通过这种改变,客户现在可以在单个节点(即多个GPU节点)内分发培训,从而更有效地使用计算资源。HorovodRunner仅在用于ML的Databricks运行时中可用。使用改进的二进制文件数据源和标量迭代器Pandas UDF的更快的模型推理管道-公共预览机器学习任务,特别是在图像和视频领域,经常需要对大量的文件进行操作。在Databricks Runtime 5.4中,我们提供了二进制文件数据源来帮助ETL将任意文件(如图像)ETL到Spark表中。在Databricks Runtime 5.5中,我们添加了一个选项recursiveFileLookup,用于从嵌套的输入目录递归地加载文件。请参阅二进制文件数据源[Azure | AWS]。二进制文件数据源使您能够使用标量Pandas UDF从Spark表并行运行模型推理任务。但是,您可能必须为每个记录批处理初始化模型,这会带来开销。在Databricks Runtime 5.5中,我们从ApacheSparkMaster中备份了一个名为"标量迭代器"的新Pandas UDF类型。有了它,您只需初始化一次模型,并将模型应用于多个输入批处理,这可以使ResNet50等模型的速度提高2-3倍。请参阅标量迭代器UDF[Azure | AWS]。免费试用Databricks。今天就开始吧