云存储_域名解析查询工具_试用

小七 2019年10月25日 21:23 141 0

优化雪花数据库架构的技巧（第2部分）

优化雪花数据库架构的技巧（第2部分）2020年2月24日|6分钟读数作者：肯特·格拉齐亚诺如何使用雪花，雪花技术设置最大平行荷载在这篇文章中，我将讨论如何在雪花云数据平台中设计您的数据保险存储负载，以实现最大速度。如果您不熟悉datavault（DV）方法，请在阅读本文之前阅读这篇介绍性博客文章和本系列文章的第1部分。因为雪花将计算和存储分开，并允许定义多个独立的计算集群，所以它提供了一些真正独特的机会来配置虚拟仓库以支持DV负载的最佳吞吐量。除了使用更大的"T恤大小"仓库来提高吞吐量外，在数据加载期间使用多集群仓库可以提高并发性，以实现更快的规模加载顺序键加载模式这是加载DV1.0仓库的标准模式，如本系列第1部分所述。在DV1.0加载中，您可以使用一个多集群仓库（允许同时加载多个表的自动横向扩展并发性）执行阶段加载（第一个垂直条）。在流程的下游，您可以在流程的不同点应用多个虚拟仓库，以便在最小化争用的同时实现最大吞吐量和并发性。您可以使用第二个多集群仓库运行stage-to-Hub装载（第二个垂直条）。这允许阶段负载连续运行，而不与集线器负载争用。由于必须在加载卫星（Sat）表之前构建集线器代理项键，因此可以使用相同的多群集仓库运行中心到中心的Sat加载（第三个垂直条），不过，如果存在大量具有大量列的快速变化的Sat，则可以使用单独的、大小不同的虚拟仓库。在这种情况下，一个更大的仓库可能更有意义。此外，在集线器加载完成后，您可以通过使用第三个多集群仓库来并行运行链路加载和集线器Sat加载。最后，您可以使用第四个多集群仓库来运行链接Sats加载（第四个垂直条）。下图显示了流程中不同虚拟仓库的位置。与雪花中的所有虚拟仓库设置一样，我们建议启用自动挂起和自动恢复，以最大限度地减少日常维护和成本。自然/哈希键加载模式由于使用了源数据中的计算（哈希）键或自然业务键，dv2.0方法允许最大限度地并行加载过程，如下图所示。与dv1.0方法一样，Snowflake提供了充分利用这种负载架构的机会。关于建立这种方法的建议在性质上与上述建议非常相似。首先，为阶段装载（第一个垂直条）设置一个多集群仓库。从那里，您可以使用四个独立的多集群仓库并行运行所有负载（第二个垂直条），如下图所示。使用此配置，您可以在DV上运行连续的加载场景，而无争用。使用多集群仓库还允许您迭代地将新的源负载和新的对象（集线器、链接、sat）添加到模型中，而不必担心达到并发阈值。请记住：您只需为所使用的内容付费，因此，即使多集群仓库的最大集群设置为10，也只有在负载中存在排队的情况下，才会启用这些额外的集群。附加提示对于这里讨论的两种装载模式，我们建议您进行一些初始测试，以确定各种虚拟仓库的最佳T恤尺寸。您可能会发现，您可以使用较小的仓库作为集线器和链接，但您可能会从sat使用较大的仓库中受益。选择尺寸的最佳方法是通过实证检验。在本系列的第3部分中，我将讨论您可能在DV中使用的雪花的一些附加特性。其中包括使用变量列类型和使用多表插入。同时，请务必在@SnowflakeDB和@kentgraziano上关注我们，了解DV和雪花云数据平台的所有最新消息和创新。特别感谢雪花解决方案架构师keithhoyle，帮助我审查和测试这些概念，并做了原始的图表。就像你读的？通过喜欢和分享来表达你的感激之情！Facebook推特LinkedIn

本文地址： /zhuji/480.html