云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

数据库_哪些云服务器便宜_哪个好

小七 141 0

必应在使用Azure GPU的搜索体验方面实现了最大的改进

在过去的几年里,深度学习已经在必应搜索中得到广泛应用,并为我们的大量智能功能提供了强大的动力。我们使用自然语言模型来提高核心搜索算法对用户搜索意图和相关网页的理解,以便必应能够向用户提供最相关的搜索结果。我们依靠深入学习的计算机视觉技术来增强数十亿图像的可发现性,即使它们没有附带的文本描述或摘要元数据。我们利用基于机器的阅读理解模型在更大的文本体中检索标题,直接回答用户的特定问题。所有这些增强都会为web搜索查询带来更相关的、上下文相关的结果。最近,一种叫做transformers的模型在自然语言理解方面取得了突破(正如来自transformers,BERT的双向编码器表示所普及的那样)。与以前的深度神经网络(DNN)体系结构不同,DNN按顺序逐个处理单词,transformers理解句子中每个单词和它周围所有单词之间的上下文和关系。从今年4月开始,我们使用大型变压器型号为Bing客户提供了去年最大的质量改进。例如,在查询"什么可以加重脑震荡"中,"加重"一词表示用户希望了解脑震荡后要采取的措施,而不是了解原因或症状。由这些模型支持的搜索现在可以理解用户的意图并提供更有用的结果。更重要的是,这些模型现在被应用于全球的每一个必应搜索查询,使必应搜索结果更具相关性和智能性。在网络搜索规模上进行深度学习的成本可能高得让人望而却步必应的客户希望获得极快的搜索体验,每毫秒的延迟都很重要。基于转换器的模型经过了多达数十亿个参数的预先训练,与以前的网络架构相比,这在参数大小和计算需求方面都有了很大的提高。一个蒸馏的三层BERT模型服务于20个CPU核的延迟,最初的基准测试是每推理77ms。然而,由于这些模型需要每秒运行数百万个不同的查询和片段来支持web搜索,因此在web搜索规模下,即使是每次77ms的推理也仍然非常昂贵,只需要数万台服务器来提供一个搜索改进。利用Azure虚拟机gpu实现800x的推理吞吐量transformer和以前的DNN架构的主要区别之一是它依赖于大规模并行计算而不是顺序处理。考虑到图形处理单元(GPU)架构是为高吞吐量并行计算而设计的,Azure内置GPU加速器的N系列虚拟机(VM)自然适合于加速这些转换器模型。我们决定从NV6虚拟机开始,主要是因为它的低成本和区域可用性,通过在该虚拟机上运行带有GPU的三层BERT模型,我们观察到服务延迟为20ms(大约提高了3倍)。为了进一步提高服务效率,我们与NVIDIA合作,充分利用GPU架构,并使用TysRoT C++ API和CUDA或CuBLAS库重新实现整个模型,包括重写嵌入、变压器、NVIDIA还提供了高效的CUDA变压器插件,包括softmax、GELU、标准化和reduction。我们在同一台azurenv6虚拟机上对TensorRT优化的GPU模型进行了基准测试,与没有GPU加速的模型相比,能够在9ms内提供一批4个推断,延迟速度提高了8倍,吞吐量提高了34倍。然后,我们在NC6s_v3虚拟机上利用混合精度的张量核心来进一步优化性能,以6ms为基准测试64个推断的批大小(与CPU相比,吞吐量提高了约800倍)。利用Azure的全球规模改变必应全球搜索体验通过这些GPU优化,我们能够在4个地区使用2000多个Azure GPU虚拟机,在全球范围内每秒提供超过100万个BERT推断。Azure N系列GPU虚拟机在实现变革性人工智能工作负载和提高Bing产品质量方面至关重要,具有高可用性、灵活性和显著的成本节约,尤其是随着深度学习模型的复杂性不断增长。我们的结论是非常清楚的,即使像Bing这样的大型组织也可以通过在Azure上使用内置GPU加速的N系列虚拟机来加速他们的AI工作负载。在没有GPU的情况下进行这种全球规模的人工智能推断,将需要成倍增加的基于CPU的虚拟机数量,这最终将成为成本上的障碍。Azure还为客户提供了在多种类型的GPU上立即部署的灵活性,如果要安装,这将需要数月的时间N系列虚拟机对于我们优化和发布先进的深度学习模型以改进必应搜索(Bing search)的能力至关重要。N系列通用性Azure在NC、ND和NV系列产品线中提供了完整的虚拟机功能组合。这些虚拟机是为GPU加速很常见的应用场景而设计的,例如计算密集型、图形密集型和可视化工作负载。NC系列虚拟机针对计算密集型和网络密集型应用进行了优化。ND系列虚拟机针对深度学习的培训和推断场景进行了优化。NV系列虚拟机针对可视化、流媒体、游戏、编码和VDI场景进行了优化。有关ND和NV系列虚拟机的最新产品添加,请参阅我们的超级计算19博客。了解更多加入我们的超级计算19,了解更多关于我们的必应优化之旅,利用Azure GPU。