云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名交易_网站建设计划书_新用户

小七 141 0

使用Databricks和Accenture实现大规模的机器学习

埃森哲应用智能公司(Accenture Applied Intelligence)董事总经理阿蒂斯·雷(Atish Ray)和埃森哲(Accenture)经理内森·布埃斯根斯(Nathan Buesgens)的客座博客虽然许多机器学习试点都取得了成功,但扩展和操作全面的应用程序以交付关键业务成果仍然是一个关键挑战。埃森哲(Accenture)和Databricks正合作克服这一问题,埃森哲应用智能(Accenture applicated Intelligence)董事总经理阿蒂斯•雷(Atish Ray)写道,他专门研究大数据和人工智能。2019年,机器学习(ML)应用和平台在全球平均吸引了420亿美元的资金。尽管如此,扩展和运行成熟的ML应用程序仍然是一个关键的挑战,尤其是在商业环境中,工业化ML的许多长期好处还没有实现。虽然ML因其学习数据模式的能力而受到称赞,随后根据经验改进了性能和结果,但扩展它的障碍是多种多样的。例如,在ML生命周期中,缺乏对元数据端到端的良好管理,可能会导致信任和可跟踪性方面的基本问题。所需技能和技术的快速发展,以及传统操作模型和业务流程(尤其是IT)之间潜在的不兼容性,都给将ML应用程序从试验阶段转移到生产阶段造成了障碍。好消息是,最近几项AI和ML技术的进步和可用性已经为ML应用程序的生命周期民主化和工业化提供了必要的工具。公共云的日益普及和使用使组织能够以比以往任何时候都更高的效率存储和处理更多的数据,这是ML应用程序最有效地扩展和运行的先决条件。由Databricks这样的公司支持的开源社区的创新产生了最先进的产品,允许科学家、工程师和架构师一起协作,快速构建和部署ML应用程序。而且,过去需要一个机器学习博士学位的东西,现在已经被抽象成各种各样的软件工具和服务,这些工具和服务已经民主化,供更多不同类型的用户使用。将所有这些与对一个行业及其数据的深入了解结合起来,很明显,对于组织来说,最好的时机是大规模地部署和操作ML。是什么使ML生命周期成为一个复杂的协作过程?为了监控ML是否在一段时间内为业务提供了持续的结果,深入了解ML生命周期中每个阶段的人员、流程和技术是至关重要的(图1)。从一开始,关键利益相关者必须就他们需要为业务实现的目标达成一致。图1:端到端ML产品生命周期在业务环境中,最好的做法之一是从一个或两个业务挑战的优先次序开始,以建立一个初始基础支持的最小可行产品或MVP。一旦建立了这个模型并准备了必要的数据,就要进行一个实验阶段来确定任何给定问题的正确模型。在选择、测试、调整和最终确定模型之后,ML应用程序就可以开始运行了。传统上,要达到这一点所需要的工作一直是数据科学家们集中精力的地方。然而,为了实现规模化运作,模型可能需要部署在某些平台上,例如云平台,或者集成到面向用户的业务应用程序中一旦这些都完成了,下一步就是在将这些学习模型部署到生产环境中时监控和调整这些学习模型的性能,在生产环境中,它们将交付特定的结果,例如提出建议和预测,或者监视某些类型的操作效率。例如,在一个案例中,日本的一家在线广告公司利用ML来创建广告投放的目标客户列表。他们成功地创建了精确的模型,但在建立模型和评估目标结果方面的运营成本很高。迫切需要使跨措施的过程正常化和自动化。为了解决这个问题,Accenture实现了一个可重用的脚本工具来构建、训练、测试和验证模型。这些从GUI前端运行的脚本与ML-flow集成在一起,可以轻松地进行部署,大大减少了DevOps扩展所需的时间和精力。在另一个案例中,美国一家大型医药零售商正努力通过其忠诚度计划(loyalty program)提供的优惠来吸引8000多万会员。它需要一种增加提升的方法,但是除了手工操作之外,还没有一个系统可以建立一个可靠、统一和可复制的ML管道,以连续不断地为数百万客户评估数十亿个组合的报价。埃森哲开发并交付了一个带有Databricks平台的个性化引擎,用于大规模构建、培训、测试、验证和部署模型,覆盖数以千万计的客户、数十亿的产品和数以万计的产品。此外,还部署了自动化的ML模型部署过程和现代化的AI管道。其结果是大大减少了DevOps在部署模型方面的时间和精力,并且该业务能够实现试点零售地点的预计20%的利润率。工业机器制造的技术基础是什么?通过与已有的专家(如上述两种情况)合作,利用已建立的构建块,可以加速这些类型程序的构建和部署,这些程序可以迭代、逐步扩展并应用于交付日益复杂的业务成果。为了帮助客户构建和操作这些ML应用程序,Accenture与Databricks合作。埃森哲利用Databricks的平台建立了解决工业ML的三个核心领域的关键技术基础:协作、数据依赖和部署(图2)。Databricks的统一分析数据平台为三个基本领域的每一个提供了关键技术组件,埃森哲还开发了一套与Databricks平台共存和集成的附加技术组件。这还包括一个可重用组件包,这些组件加快了协作,提高了对数据的理解,并简化了操作部署。最终,这一伙伴关系的目标是精简已被证明可用于大规模部署的方法。图2:协作、数据依赖和部署基于广泛的实施经验,我们知道正在工业化ML开发和部署的组织正在解决我们在这里讨论的三个基本领域:协作跨组织边界的分析社区的全面协作,管理和共享特性和模型,是成功的关键。作为一个协作环境,Databricks Workspace为数据工程师和数据科学家提供了一个共同探索数据集的空间,迭代地构建模型,执行实验和数据管道。MLflow是一个关键组件,也是Databricks的开源项目,可以在从实验到部署的ML生命周期中进行协作,并允许用户跟踪模型性能、版本和可重复的结果。Accenture为许多场景提供了一个模型和特性工程工具包,例如推荐引擎,它引导了整个ML应用程序的生命周期。它利用了成功模型的行业知识,并使基线生产反馈为校准工作提供信息。数据依赖性我们再怎么强调访问和理解可用数据集和相关元数据对推动成功成果的重要性都不为过。我们的数据依赖组件捕获标准和规则来塑造数据,并提供可视化图表来帮助评估数据质量。这提高了数据采集和管理的速度,进一步加快了对数据的理解,提高了特征工程的效率。Databricks平台提供了多种功能来提高数据质量和处理性能。Delta Lake作为Databricks的一部分提供,是一个开放源代码存储层,支持ACID事务和数据质量特性,并为大规模数据湖带来可靠性。提供了Apache Spark的高可扩展性数据引擎和Ricks的高性能增强。部署实验需要数据科学知识才能将正确的解决方案应用于正确的行业问题,而部署则需要良好集成的跨职能团队。我们的部署组件使用元数据驱动的方法来构建和部署表示从开始到验证的连续工作流的ML管道。通过启用标准和部署模式,这些组件使实验操作化成为可能。Databricks企业云服务是一个简单、安全和可伸缩的托管服务,支持高性能ML管道和应用程序的一致部署。此外,还可以启用用于部署和管理生产模型和漂移的治理结构。将这些来自Databricks和Accenture的组件集成在一起,可以显著加快AWS和Azure云上ML生命周期的部署。在大规模部署ML之前,需要考虑哪些关键因素?对于那些正在考虑采用工业化方法来处理ML的人来说,有几个关键问题需要首先考虑。它们包括:业务利益相关者是否对ML需要解决的业务问题和对它需要实现的关键结果的期望保持一致?是否有适当的角色和技能来扩展和监控ML应用程序以部署成功的实验?是否了解必要的基础设施和自动化需求,并为工业化ML解决方案提供这些需求?数据科学团队是否拥有正确的操作模型、标准和使能技术,以避免在实验完成后进行重大的部署重新设计?W