云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

_com域名过期后多久可以注册_代金券

小七 141 0

介绍Nova AutoML:一种用于预测性见解的新架构

作者:斯科特·克莱默、比拉尔·马哈茂德、比尔·彭特尼、埃里克·波尔曼、杰弗里·王传统上,产品分析主要是观察过去:统计自上周一以来的注册数量;观察周二有多少用户购买;周三前衡量他们的保留率。产品团队在过去进行这些测量,以便能够影响未来:预测下周将有多少用户注册;估计首次购买时的用户亲和力;预测谁的流失风险最高。准确而肯定地回答这些问题是产品分析和产品智能之间的区别。当团队能够访问预测性见解时,他们可以做出决策,构建功能,并运行能够产生更多客户和业务价值的活动。不幸的是,以自助和实时方式大规模预测未来结果需要在分布式系统和机器学习架构上进行大量投资。也就是说,除非你是振幅客户。为了帮助我们的客户使用产品智能进行操作并获得预测性见解,我们在振幅的专有数据生态系统Nova中构建了一个自动机器学习(AutoML)系统。有了这个增强版的Nova,振幅客户可以产生规模上的预测洞察力。为了尽早获得由Nova AutoML提供的预测性见解,请在此表达兴趣。开发机器学习模型:如何将AutoML构建到Nova中我们大规模交付AutoML的工作始于今年春天收购机器学习初创公司ClearBrain。从那时起,我们的工程团队致力于将Clearbrain的技术集成到Nova中,并为我们的客户自动化经典机器学习(ML)工作流的四个阶段。传统的机器学习工作流是如何工作的开发机器学习模型是一个项目定义、数据转换、培训和部署的迭代循环。1项目定义开发机器学习模型的第一步是理解被问的问题以及将如何处理这些答案。根据用例的需要,开发生命周期值(LTV)预测系统或推荐系统可能需要不同的ML模型。研究适用的问题空间并熟悉不同的ML模型是创建AutoML系统的另一个挑战。2数据转换第二步是数据转换。模型和人们一样从历史数据中学习。收集高信号数据并将其保存在正确的格式以支持机器学习模型是一项挑战。这些模型不仅需要适当格式的数据,而且解决其他常见的数据处理问题(如事件和用户重复数据消除和规范化)会使从头开始成为一项艰巨的任务。automl需要从许多不同的源获取数据并以一致的格式持久化。三。训练在数据转换之后是模型训练,即根据历史数据教授模型预测未来结果的过程。在训练后验证模型是否能够很好地预测,并对其进行调整以更好地预测是这一步中具有挑战性的部分。这一步对automl来说是一个重大的挑战,因为泛型调优参数必须在没有人为干预的情况下对许多预测和客户数据类型执行良好。4部署ML工作流的最后一步是部署。在这里,训练的数学模型被应用于当前的数据和输出分数。automl系统必须能够水平缩放预测计算,支持数百万用户记录中的许多预测。新的预测得分必须快速序列化到端点或服务,然后在这些端点或服务中可以利用它们来实现所需的用例。传统上,这种工作流程需要工程师和数据科学家组成的团队在数周的时间内进行协作,以构建一个模型。Nova的新的AutoML系统反而加速了这一过程,在几分钟内处理任何数据集,通过专有的新体系结构解决了每个关键挑战。我们如何自动化传统的机器学习工作流程我们的团队构建了Nova AutoML系统来自动化传统ML工作流的四个阶段。这项工作涉及将实时数据存储区连接到分布式计算系统和模型部署管理服务。以下是支持Nova AutoML系统的主要技术:Nova Query:Nova Query是一个分布式实时数据存储,它基于我们的标准SDK集成,为客户的事件数据和用户属性数据提供查询服务。AutoML系统利用Nova作为机器学习管道的主干。它使用Nova Query的实时数据查询功能将事件转换为机器可读的用户聚合,利用Nova Query的行为协同功能标记模型的输入和目标结果,并通过振幅持久化推理结果进行查询。Nova是实现该系统实时扩展性的有效区别。Nova AutoML技术概述这些是Nova AutoML中的平台和应用程序之间的关系,以及它们在系统中的作用。apachespark:apachespark是一个统一的分析引擎,可以帮助我们扩展ML管道的各个步骤。Spark运行在Amazon的Elastic MapReduce(EMR)上,用于包管理和自动缩放,它为我们的Nova AutoML系统的分布式计算组件提供了动力,使其能够在Nova Query输出的转换数据之上运行任意数据处理。具体地说,Spark使我们能够在数十兆字节的数据上运行分布式计算,从而扩展了用于模型训练的用户特征向量的生成。Amazon Sagemaker:为了便于我们的AutoML系统的训练和推理部分,我们利用了Amazon Sagemaker。SageMaker的Jobs特性使我们能够在模型训练组件期间以高计算级别运行Tensorflow和SKLearn转换,同时管理推理阶段的自动缩放和批处理。开箱即用的监视功能还允许我们快速迭代建模基础设施的测试和参数化。apacheflow:在Nova Query、Spark和Sagemaker之间协调所有相互关联的进程是apacheflow。Airflow是一个工作流托管、调度和管理平台,有助于训练和推理管道在需要不同内存或计算的远程系统上运行任务。自动机器学习系统的工作原理Nova Query与Spark和Sagemaker的结合,都是通过气流组织起来的,这使得Nova AutoML能够提供自我服务的预测性见解。首先,当客户在振幅用户界面中表示要运行预测分析时,AutoML系统将初始化。气流训练管道立即从Nova Query中存储的客户原始事件数据启动一系列数据转换步骤(也称为功能工程)。训练管道工作流训练管道查询Nova查询特征矩阵输入,在Spark中对结果进行后处理,然后通过TensorFlow训练模型。特性工程过程完全建立在Nova Query上运行的三个实时数据查询之上。第一个查询生成作为训练算法输入变量的用户特征集合。第二个查询为训练算法构造标签,指示特定用户过去是否执行了所需的结果。第三个查询过滤将被选择用于训练算法的用户集或起始队列。Nova Query将所有这些查询写到parquet文件中,以确保以列为基础进行后期处理。接下来,我们的Spark集群被用来将Nova查询产生的三个特征向量中的每一个都后处理成机器可读的格式,并可伸缩地将所有三个向量合并到一个单一的特征矩阵中。特征矩阵以protobuf(一种基于行的格式)输出到S3,这样当Nova AutoML进行模型训练时,Tensorflow可以单独地流式传输用户向量。然后,气流系统在Sagemaker中启动一个正式的模型训练管道,加载特征矩阵,训练预测模型,并将模型写回S3。推理管道工作流推理管道查询Nova查询特征矩阵输入,后处理Spark中的数据,在Tensorflow上运行推理,然后将预测分数写回Nova查询。模型训练完成后,将为创建的预测启动单独的气流推断管道。推理管道根据每小时更新一次的新用户聚合,在每次推理运行时生成一个特征矩阵。该管道使用Sagemaker从S3加载特征矩阵和之前训练过的模型,并计算每个预测结果的用户分数,并在用户级别将其写回Nova查询。整个过程,端到端,使Nova AutoML能够在不到20分钟的时间内运行大多数预测,而无需任何人工干预。一旦启动,预测每小时更新一次,因此Nova Query会在各自的预测洞察中为振幅提供最新的概率值。接下来,我们将深入探讨如何实现Nova AutoML功能工程、模型培训、预测推理的每一步,以便将其推广到任何数据集、任何客户、任何规模。我们如何自动化特征工程简单地说,特征矩阵中的数据是预测模型将从中学习的数据。由于振幅是一个产品智能平台,此数据通常是从我们的标准SDK中的网站和应用程序收集的一组用户事件和属性。例如,一个事件可以是"click",事件属性为"button",值为"checkout",用户属性为"device type",值为"iphone6"