云网站服务器_国内数据云存储_移动云数据库服务器主机-搜集站云

服务器采购_什么是_人工智能领域有哪些

小七 141 0

服务器采购_什么是_人工智能领域有哪些

从历史上看,数据科学领域最大的挑战之一是许多模型无法通过实验阶段。随着这一领域的成熟,我们已经看到了MLOps过程和工具的出现,它们提高了项目的速度和可重复性。虽然我们还有一段路要走,但比以往任何时候都有更多的模型跨过生产线。

这就引出了数据科学家的下一个问题:我的模型将如何在生产中扩展?在这篇博文中,我们将讨论如何使用托管预测服务Google Cloud的AI Platform prediction来解决扩展推理工作负载的挑战。

推理工作负载

在机器学习项目中,有两个主要工作负载:训练和推理。训练是从数据样本中学习建立模型的过程,推理是使用该模型对新数据进行预测的过程。

通常,训练工作量不仅是长期的,而且是零星的。如果您使用的是前馈神经网络,那么训练工作负载将包括对数据的多次向前和向后传递,更新权重和偏差以最小化错误。在某些情况下,由该过程创建的模型将在相当长的一段时间内用于生产,而在另一些情况下,怎么做淘客,可能会频繁触发新的训练工作负载,以使用新数据重新训练模型。

另一方面,推理工作负载由大量较小的事务组成。推理操作本质上是通过神经网络的正向传递:从输入开始,在每一层执行矩阵乘法并产生输出。工作负载特性将与推理在生产应用程序中的使用方式高度相关。例如,在一个电子商务站点中,对产品目录的每个请求都可能触发一个推理操作来提供产品推荐,并且服务的流量将随着电子商务流量的增加而达到高峰和停滞。

平衡成本和延迟

推理工作负载的主要挑战是平衡成本和延迟。生产工作负载通常要求延迟小于100毫秒,以获得流畅的用户体验。除此之外,应用程序的使用可能是尖峰的和不可预测的,但在高强度使用期间,延迟要求不会消失。

为了确保始终满足延迟要求,大数据信息,可能会提供大量的节点。过度配置的缺点是,许多节点没有得到充分利用,导致不必要的高成本。

另一方面,配置不足会降低成本,但会由于服务器过载而导致延迟目标丢失。更糟糕的是,如果发生超时或丢包,用户可能会遇到错误。

当我们考虑到许多组织在多个应用程序中使用机器学习时,情况变得更加棘手。每个应用程序都有不同的使用概要文件,并且每个应用程序可能使用具有独特性能特征的不同模型。例如,在本文中,Facebook描述了他们为自然语言、推荐和计算机视觉服务的模型的不同资源需求。

AI平台预测服务

AI平台预测服务允许您在云中轻松地托管经过训练的机器学习模型,并自动缩放它们。用户可以使用带有输入数据的托管模型进行预测。该服务支持在线预测(当需要及时推断时)和批量预测(用于批量处理大型作业)。

要部署经过培训的模型,首先要创建一个"模型",它本质上是一个用于相关模型工件的包。然后在该模型中创建一个"版本",其中包含模型文件和配置选项,大数据分析培训机构,如机器类型、框架、区域、缩放等。您甚至可以在服务中使用自定义容器来更好地控制框架、数据处理和依赖关系。

要使用服务进行预测,您可以使用RESTAPI、命令行或客户端库。对于联机预测,请指定项目、模型和版本,然后传入文档中所述的一组格式化实例。

缩放选项简介

定义版本时,什么是物联网,可以指定要与应用程序一起使用的预测节点数手动缩放.节点选项。通过手动设置节点数,节点将始终运行,无论它们是否提供预测服务。您可以通过创建具有不同配置的新模型版本来调整此数字。

您还可以将服务配置为自动缩放。服务将随着流量的增加而增加节点,随着流量的减少而删除节点。可以使用自动缩放.minNodes选项。您还可以使用自动缩放.maxNodes。这些设置是提高利用率和降低成本的关键,使节点数量能够在您指定的限制范围内进行调整。

通过多区域扩展可以实现跨区域的连续可用性,以解决其中一个区域中的潜在停机问题。当使用至少1个节点的自动缩放或至少2个节点的手动缩放时,节点将自动分布在指定区域的区域中。

GPU支持

定义模型版本时,需要指定机器类型和GPU加速器,这是可选的。每个虚拟机实例都可以将操作卸载到连接的GPU上,这可以显著提高性能。有关谷歌云支持的GPU的更多信息,请参阅以下博文:使用NVIDIA T4s、P100s、V100s降低成本并提高吞吐量。

AI平台预测服务最近推出了GPU支持自动缩放功能。该服务将查看CPU和GPU的利用率,以确定是否需要放大或缩小。

自动缩放是如何工作的?

在线预测服务可扩展其使用的节点数,以最大化其可处理的请求数而不引入太多延迟。为此,服务: