云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

对象存储_对象存储技术_怎么样

小七 141 0

为机器学习引入Databricks Runtime 5.0

六个月前,我们为机器学习引入了Databricks运行时,目标是使机器学习在Databricks统一分析平台上更高效、更简单。用于ML的Databricks运行时预打包了许多ML框架,并支持分布式训练和推理。今天,我们很高兴发布第二个迭代,包括Conda支持、TensorFlow的最新版本、用于分布式深度学习培训的HorovodRunner API以及graphrames和MLlib的性能优化。我们的客户对Databricks Runtime for ML 4.1版的第一个实验性版本的兴奋和接受超出了我们的预期。这鼓励我们将运行时移到常规的生产节奏。从Runtime 5.0开始,我们将在每一个新的DBR版本中发布一个新的ML运行时,其中包含主要框架的最新稳定版本,比如TensorFlow。此5.0版本可用于所有Databricks层,包括Community Edition。您可以在我们的发行说明中找到包含的库的列表,尤其是我们的新API,用于使用HorovodRunner进行分布式深度学习培训。此外,我们还介绍了数据科学家和机器学习工程师所依赖的几个关键改进。Conda托管运行时Databricks Runtime 5.0 for ML是第一个使用Conda进行Python包管理的平台。所有Python包都安装在一个环境中。我们的库管理人员将在这个环境中安装Egg和PyPi包。这是我们迈向数据科学家友好环境的第一步。我们将使用Conda添加更多的特性,并使其作为ML运行时的包管理器更加突出。升级Tensorflow此版本将Tensorflow升级到1.10版本。在GPU群集上,客户将拥有CUDA优化版本,在标准实例上,我们提供的软件包利用Intel MKL-DNN在Intel CPU上实现数值计算的最高性能。还提供了Keras版本2.2.4。优化训练算法我们对Spark MLlib logistic回归和树分类器进行了性能改进,后者是Databricks客户使用的最流行的估计器。我们观察到,与apachespark 2.4.0相比,Spark性能测试提高了约40%。您可以利用Databricks Runtime 5.0和Databricks Runtime 5.0 ML上改进的性能。与Runtime 5.0 ML捆绑的GraphFrames库包含优化的连接组件实现。它现在运行速度提高了2-4倍,并且支持更大的图形。如果底层节点和边缘表包含列统计信息,图形查询将利用基于Spark成本的优化(CBO)来确定连接顺序。这可能会导致100倍的加速,这取决于您的工作负载和数据倾斜。流行的ML包我们包括apachespark和Tensorflow生态系统中其他几个流行的机器学习库的最新稳定版本。XGBoost版本0.80图形框架v0.6.0-db1MLeap v0.13.0版TensorFrames v0.5.0版Spark深度学习v1.3.0-db1免费试用Databricks。今天就开始吧