中间件_昆明集团网站建设_优惠

小七 2019年10月25日 21:23 141 0

使用Databricks Runtime 5.4ml增强了超参数优化和AWS存储

我们很高兴地宣布Databricks Runtime 5.4ml（Azure | AWS）的发布。这个版本包括两个公共预览特性，用于提高数据科学生产力，优化AWS中用于开发分布式应用程序的存储，以及一些Python库升级。首先，在Databricks中创建新集群时，只需从下拉列表中选择Databricks运行时5.4ml。Databricks Runtime for Machine Learning，5.4版公共预览：分布式Hyperopt+自动MLflow跟踪超参数整定是一种常用的基于超参数或模型训练过程中未学习的参数来优化机器学习模型的技术。然而，超参数调整的一个主要挑战是，它可能既计算开销又慢。Hyperopt是一个流行的开源超参数调优库，具有强大的社区支持（截止2019年5月，在Github上下载了600000+个PyPI，有3300多个星）。数据科学家喜欢Hyperopt，因为它简单有效。Hyperopt提供了两种调整算法：随机搜索和Parzen估计量的贝叶斯方法树，与网格搜索等暴力方法相比，它提供了更高的计算效率。但是，以前分发Hyperopt不是开箱即用的，需要手动设置。在Databricks Runtime 5.4ml中，我们介绍了apachespark支持的Hyperopt实现。使用新的试用类SparkTrials，您可以轻松地分发Hyperopt运行，而不必对当前的hyperoptapi进行任何更改。在应用超选择.fmin函数（请参阅下面的示例代码）。此外，所有的调优实验，连同调整过的超参数和目标度量，都会自动记录到数据块中的MLflow中。利用这个特性，我们的目标是在进行超参数调整时提高效率、可伸缩性和简单性。这个特性现在已经公开预览了，我们鼓励Databricks的客户尝试一下。您可以在文档（Azure | AWS）部分了解更多有关该功能的信息。#新的SparkTrials类，用于分发调优spark_试验=SparkTrials（平行度=24）fmin公司(fn=训练，#训练和评估模型的方法空间=搜索空间，定义超参数空间阿尔戈=tpe.建议搜索算法：Parzen估计树max_evals=8，要尝试的超参数设置数show_progressbar=False，试验=火花试验）在Databricks，我们拥抱开源社区和api。我们正在与Hyperopt社区合作，将这个Spark-powered实现贡献给开源Hyperopt。敬请期待。公共预览：MLlib+自动MLflow跟踪Databricks运行时5.4和5.4ml支持使用PySpark MLlib调优算法CrossValidator和TrainValidationSplit训练的模型的MLflow运行记录。在这个特性之前，如果您想跟踪PySpark MLlib交叉验证或MLflow中的调优，您必须在Databricks笔记本中显式地调用MLflow API。使用MLflow MLlib集成，当您通过运行CrossValidator或TrainValidationSplit来优化超参数时，参数和评估指标将自动记录到MLflow中。然后，您可以查看调优如何影响MLflow中的评估指标。此功能现已公开预览。我们鼓励Databricks用户尝试它（Azure | AWS）。AWS上的默认优化保险丝座Databricks运行时有一个DBFS的基本FUSE客户机，它是安装在Databricks集群上的分布式文件系统的本地视图。这个特性非常流行，因为它允许本地访问远程存储。但是，以前的实现不允许开发分布式深度学习应用程序所需的足够快的数据访问。在Databricks Runtime 5.4中，AWS上的Databricks现在默认提供了一个优化的FUSE挂载。现在，您可以在训练和推理期间进行高性能的数据访问，而无需应用init脚本。存储在dbfs:/ml下并且可以在文件：/dbfs/ml中本地访问的数据现在由这个优化的FUSE安装支持。如果您运行的是Databricks 5.4之前的运行时版本，那么可以按照我们的说明安装一个高性能的第三方FUSE客户端。我们在Databricks运行时5.3中为azuredatabricks引入了默认的优化FUSE挂载。通过使用相同的文件夹名，我们实现了跨Azure和AWS平台的功能对等。在接下来的几个月里，我们计划为那些希望灵活访问数据的数据科学家增强DBFS-FUSE客户端。显示HorovodRunner培训日志在过去，我们介绍了HorovodRunner，一种在数据库中分发深度学习培训工作负载的简单方法。Databricks Runtime 5.4ml通过在Databricks笔记本单元中显示HorovodRunner培训日志来改善用户体验。为了查看培训日志以更好地了解优化进度，您不再需要查看Spark UI（Azure | AWS）下的执行器日志。现在，在执行HorovodRunner作业时，培训日志将自动收集到驱动程序节点并显示在笔记本单元中。您可以在我们的文档（Azure | AWS）中了解更多信息。其他库更新我们在Databricks Runtime 5.4 ML中更新了以下库：预装XGBoost Python包0.80。r-base版本从3.5.2升级到3.6.0。我们发布了将TensorFlow 1.13和2.0-alpha安装到Databricks Runtime ML的说明（Azure | AWS）阅读更多Databricks Runtime 5.4 ML发行说明（Azure | AWS）Databricks文档–机器学习（Azure | AWS）超参数调整概述（博客文章和6月20日的网络研讨会）Spark AI Summit 2019演讲："使用MLflow进行超参数调谐的最佳实践"，Joseph BradleySpark AI Summit 2019演讲：Maneesh Bhide的"高级超参数优化与MLflow深度学习"在Databricks Runtime 5.4ml上，尝试为azuredatabricks和AWS提供分布式深入学习培训的示例笔记本免费试用Databricks。今天就开始吧

本文地址： /zhuji/3222.html