企业邮箱_十年百度云_免费申请

小七 2019年10月25日 21:23 141 0

在Azure认知搜索中引入增量扩展

增量扩展是Azure认知搜索的一个新特性，它带来了一种声明性的方法来索引您的数据。启用增量扩展后，即使您的技能不断发展，文档扩展也将以最低的成本执行。Azure认知搜索中的索引器从数据源将文档添加到搜索索引中。索引器跟踪对数据源中文档的更新，并使用数据源中的新文档或更新的文档更新索引。增量扩展是一个新特性，它将更改跟踪从数据源中的文档更改扩展到扩展管道的所有方面。使用增量扩展，索引器将驱动文档最终与数据源、技能集的当前版本以及索引器保持一致。索引器有几个关键特性：特定于数据源。国家意识。可以配置为驱动数据源和索引之间的最终一致性。过去，通过添加、删除或更新技能来编辑技能集会给您留下次优选择。要么在整个语料库上重新运行所有技能，本质上是对索引器进行重置，要么容忍版本漂移，即索引中的文档使用不同版本的技能集进行丰富。随着对API预览版的最新更新，索引器状态管理从仅数据源和索引器字段映射扩展到还包括技能集、输出字段映射知识库和投影。增量浓缩极大地提高了浓缩管道的效率。它消除了在添加或更新技能时接受重新丰富整个文档库的潜在巨大成本的选择，或者解决使用不同版本的技能集创建/更新的文档在形状和/或丰富内容的质量方面有很大差异的版本漂移。现在，索引器通过确定哪些技能发生了更改来跟踪和响应扩展管道中的更改，并在调用时选择性地只执行更新的技能和任何下游或从属技能。通过配置增量扩展，您将能够确保索引中的所有文档始终使用扩展管道的最新版本进行处理，同时执行所需的工作量最少。增量扩展还为您提供了细粒度控制，以处理您希望完全控制如何处理更改的场景。索引器缓存通过向扩展管道添加索引器缓存，可以实现增量索引。索引器为每个文档缓存每个技能的结果。当由于技能集更新（新的或更新的技能）而需要重新索引数据源时，将从缓存中读取以前充实的每个文档，并且只重新运行受影响的技能、更改后的技能和更改的下游。更新后的结果被写入缓存，文档在索引中被更新，也可以在知识库中更新。实际上，缓存是一个存储帐户。搜索服务中的所有索引可以为索引器缓存共享相同的存储帐户。为每个索引器分配一个不可变的唯一缓存id。对索引的细粒度控制增量扩展提供了一系列粒度控制，从确保索引器首先执行最高优先级的任务到覆盖更改检测。变更检测覆盖：增量浓缩为您提供了对浓缩管道所有方面的细粒度控制。这使您能够处理变更可能产生意外后果的情况。例如，编辑技能集并更新自定义技能的URL将导致索引器使该技能的缓存结果无效。如果您只是将端点移动到另一个虚拟机（VM）或使用新的访问密钥重新部署技能，那么您确实不希望重新处理任何现有文档。为了确保索引器只执行显式需要的丰富性，对技能集的更新可以选择将disableCacheReprocessingChangeDetection查询字符串参数设置为true。设置后，此参数将确保只提交对技能集的更新，并且不会评估更改对现有语料库的影响。缓存失效：与此相反，您可以部署自定义技能的新版本，扩展管道中没有任何更改，但您需要使特定技能失效，并重新处理所有受影响的文档，以反映更新模型的好处。在这些情况下，可以对技能集调用"使技能无效"操作。resetskills API接受一个POST请求，其中包含缓存中应该失效的技能输出列表。有关重置技能API的更多信息，请参阅文档。现有API的更新引入增量扩展将导致对一些现有api的更新。索引器索引器现在将公开一个新属性：隐藏物StorageAccountConnectionString：指向存储帐户的连接字符串，将用于缓存中间结果。CacheId:CacheId是annotationCache存储帐户中用作此索引器缓存的容器的标识符。如果索引器ID是唯一的，则将使用相同的索引器ID重新生成缓存。无法设置cacheId，它始终由服务生成。EnableReprocessing：默认设置为true，设置为false时，文档将继续写入缓存，但不会基于缓存数据重新处理现有文档。索引器还将支持一个新的querystring参数：ignoreResetRequirement设置为true允许提交通过，而不触发重置条件。技能组合技能集将不支持任何新操作，但将支持新的querystring参数：如果不希望基于当前操作对现有文档进行更新，则DisableCacheReachingChangeDetection设置为true。数据源数据源将不支持任何新操作，但将支持新的querystring参数：ignoreResetRequirement设置为true允许提交在不触发重置条件的情况下进行。最佳实践建议使用增量扩展的方法是在新的索引器上配置cache属性，或者重置现有的索引器并设置cache属性。谨慎使用ignoreResetRequirement，因为它可能会导致数据中不容易检测到的意外不一致。外卖增量扩展是一个强大的特性，它允许您声明性地确保来自数据源的数据始终与搜索索引或知识存储中的数据一致。随着您的技能、技能集或丰富性的发展，扩展管道将确保尽可能少的工作来推动您的文档达到最终的一致性。下一步行动通过向现有索引器添加缓存或在定义新索引器时添加缓存，开始增量扩展。

本文地址： /ziyuan/1680.html