亚马逊云_昆山网站建设公司_学生机

小七 2019年10月25日 21:23 141 0

托管MLflow现在可以在Databricks社区版上使用

2016年2月，我们推出了Databricks Community Edition，这是一个免费版，供大数据开发人员学习并快速开始使用Apache Spark。从那时起，我们一直致力于培养一个开发者社区：到目前为止，我们已经有超过15万注册社区版用户；我们在会议、Spark+AI峰会和其他开源活动中培训了数千人。今天，作为帮助开发人员学习机器学习生命周期的持续承诺的一部分，我们很高兴能够免费扩展Databricks社区版和托管MLflow。使用CommunityEdition，您可以尝试一些教程，演示如何在构建机器学习模型时跟踪结果和实验，这是机器学习模型开发生命周期中的一个关键阶段。MLflow是一个机器学习生命周期的开源平台，包含四个组件：MLflow跟踪、MLflow项目、MLflow模型和MLflow注册表。MLflow现在包含在Databricks Community Edition中，这意味着您可以在笔记本电脑或笔记本电脑上使用它的跟踪和建模api，就像在Databricks企业版中使用托管MLflow一样容易。在这个博客中，我们简要地解释了如何在communityedition中使用MLflow。我们将分享一个示例笔记本，它训练Keras/TensorFlow模型并在Databricks Community Edition中运行，然后介绍如何在笔记本电脑上运行GitHub示例，并在Databricks Community Edition上远程记录结果。在CommunityEdition工作区中运行实验首先，注册社区版。然后，使用mlruntime 6.0创建一个集群，该集群附带一个预配置的ML环境，包括mlflow、Keras、PyTorch、TensorFlow和其他库。对于任何其他运行时，您必须安装mlflow库或运行dbutils.library.installPyPI（"mlflow"）在笔记本的第一个单元格中。在工作区创建实验在笔记本中时，MLflow会自动将结果记录到与笔记本相关联的实验中。还可以显式创建一个实验，在该实验下跟踪所有模型训练运行和结果，如下所示：在默认笔记本实验中记录运行在笔记本中运行MLflow代码时，这些运行将被记录到与该笔记本相关联的默认实验中。或者，可以使用显式设置实验名称mflow.set_实验（"path_to_experience_name"），用于聚合和比较多个笔记本的运行情况。在这个工作空间和默认的实验名称下，我们将训练一个Keras-MNIST模型，该模型具有各种正则化参数，如时代数、隐藏层、每层单元数、批大小、动量、丢失和激活函数。我们可以用不同的正则化参数进行一些实验，选择验证损失最小、精度最高的最佳模型。使用跟踪服务器创建MLflow会话通过使用mlflow.start_运行（run_name=run_name），我们会自动启动与跟踪服务器的会话，而mlflow.keras.autolog公司（）将接收此当前活动的运行会话，并自动记录参数、度量、标记和模型。下面是从笔记本中摘录的代码，您可以将其导入CommunityEdition。def run_mlflow（run_name="mlflow CE MNIST"）：#开始一次积极的跑步mlflow.start_运行（运行名称=运行名称）#自动记录此运行名称下的指标mlflow.keras.autolog公司()...#构建Keras模型型号=模型。顺序()模型.add(分层。展平（输入_-shape=x_-train[0].shape））...模型.add(分层。密实（10，激活=tf.nn.softmax))#使用优化器和损失类型编译和拟合模型模型.编译（优化器=优化器，loss='sparse\u category_crossentry'，指标=["准确性"]）)模型.拟合（x车、y车、时代=年代，批次大小=args.batch_大小)#评估模型试验损失，试验加速度=模型.评估（x检验，y检验，verbose=2）#结束当前运行mlflow.end_运行（status='FINISHED'）...从上面可以看出，在社区版中运行的跟踪实验相对简单。只需几行代码，就可以使用MLflow跟踪和模型api在笔记本中生成运行，并可视化它们的参数和度量以供评估。此步骤是模型开发生命周期中的一个重要阶段。在本地运行实验并在社区版上跟踪结果你也可以在你的笔记本电脑或本地机器上运行实验，跟踪结果到社区版。只有在配置了本地环境并注册了社区版之后，才能远程跟踪结果。配置本地环境pip安装mlflow（如mlflow快速启动指南中所述）如上所述，在您的工作区中创建一个实验并获取其路径。通过databricks configure CLI创建凭据文件（并回答提示）Databricks主机（应以https://）开头：https://community.cloud.databricks.com用户名：输入您的登录凭据密码：输入community edition的密码配置MLflow以与communityedition服务器通信：export MLflow_TRACKING_URI=databricks通过CLI创建一个实验来测试您的配置：mlflow experiments create-n/Users//my实验完成以上步骤后，您可以在本地运行包含机器学习和MLflow代码的任何Python、Java或R脚本，并在communityedition上托管的MLflow跟踪服务器上跟踪结果。除上述步骤外，将MLFLOW_experience_NAME环境变量设置为上面创建的实验，或在Python中：导入mlflowmlflow.set_实验（"/工作区中实验名称的路径"）对于这个实验运行，我们将把上面的行添加到examples/sklearn_elasticnet_diabetes/osx/train_糖尿病.py从我们克隆的repo中的MLflow GitHub存储库中。让我们在笔记本电脑上执行三个独立的运行，每个运行的参数都不同。每次运行时，结果都将记录在我们的CommunityEdition服务器上，并在上面创建的实验下进行。蟒蛇火车_糖尿病.py0.01 0.01&&python系列_糖尿病.py0.01 0.75&&python系列_糖尿病.py0.01 1.0如上面的动画所示，当代码在本地执行时，运行的结果将远程记录在社区版本上托管的MLflow跟踪服务器上。或者，您可以在为笔记本电脑配置Databricks MLflow凭据后，将此简单代码剪切并粘贴到您最喜爱的编辑器中，然后从您的笔记本电脑上运行：导入操作系统进口苏蒂尔从random导入random，randint导入mlflow从mlflow导入log_metric，log_param，log_artifacts如果¨uu name_u=="优main\"：#将跟踪服务器设置为Databricks Community Edition#设置实验名称；如果名称不存在，MLflow将#为你创造一个mlflow.set_跟踪_uri（"数据块"）mlflow.set_实验（"/用户/你的@mail/你的实验名")打印（"运行试验_ce.py")打印（"跟踪https://community.cloud.databricks.com")mlflow.start_运行（运行_name="CE_TEST"）#日志参数和指标log_param（"param-1"，随机数（0，100））log_metric（"metric-1"，random（））log_度量（"metric-2"，random（）+1）log_度量（"metric-3"，random（）+2）#为您的工件创建工件目录如果没有os.path.exists（"输出"）：操作系统makedirs（"输出"）打开（"输出/测试.txt"，"w"）作为f：f、 write（"看起来我登录了社区版！"）#记录工件日志工件（"输出"）舒蒂尔.rmtree（"输出"）mlflow.end_运行()摘要总而言之，MLflow现在在Databricks社区版上可用。作为机器学习模型开发阶段的一个重要步骤，我们分享了两种使用MLflow api运行机器学习实验的方法：一种是在communityedition中的笔记本上运行；另一种是在笔记本电脑上本地运行脚本，并将结果记录到Community Edition上托管的跟踪服务器。为了快速实验和学习，communityedition上的MLflow服务器不是为生产使用而设计的。例如，它不包括运行和复制MLflow项目的能力。而且它的可扩展性和正常运行时间的保证是有限的。自2016年2月首次发布以来，Community Edition已被证明是学习ApacheSpark、数据科学和数据工程的有用工具。我们很乐意扩展它，以了解如何使用MLflow管理机器学习生命周期。下一步是什么首先，在您的笔记本电脑上尝试MLflow GitHub存储库中的一些示例。这些Python脚本（quickstart/mlflow_跟踪.py还有斯基尔·埃拉斯蒂涅葡萄酒/火车.py)这是一个很好的开端，可以在您的笔记本电脑上本地培训模特，并在社区版上进行远程跟踪。或者在您的社区版本中导入并运行此笔记本。加入MLflow社区并下载最新的MLflow 1.3。最后，在使用MLflow之后，可以随意进行贡献。阅读更多如果你是新的MLflow，那么请阅读MLflow。对于生产用例，请阅读关于Databricks上的Managed MLflow。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3270.html