云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

云存储_域名解析查询工具_试用

小七 141 0

优化雪花数据库架构的技巧(第2部分)

优化雪花数据库架构的技巧(第2部分)2020年2月24日|6分钟读数作者:肯特·格拉齐亚诺如何使用雪花,雪花技术设置最大平行荷载在这篇文章中,我将讨论如何在雪花云数据平台中设计您的数据保险存储负载,以实现最大速度。如果您不熟悉datavault(DV)方法,请在阅读本文之前阅读这篇介绍性博客文章和本系列文章的第1部分。因为雪花将计算和存储分开,并允许定义多个独立的计算集群,所以它提供了一些真正独特的机会来配置虚拟仓库以支持DV负载的最佳吞吐量。除了使用更大的"T恤大小"仓库来提高吞吐量外,在数据加载期间使用多集群仓库可以提高并发性,以实现更快的规模加载顺序键加载模式这是加载DV1.0仓库的标准模式,如本系列第1部分所述。在DV1.0加载中,您可以使用一个多集群仓库(允许同时加载多个表的自动横向扩展并发性)执行阶段加载(第一个垂直条)。在流程的下游,您可以在流程的不同点应用多个虚拟仓库,以便在最小化争用的同时实现最大吞吐量和并发性。您可以使用第二个多集群仓库运行stage-to-Hub装载(第二个垂直条)。这允许阶段负载连续运行,而不与集线器负载争用。由于必须在加载卫星(Sat)表之前构建集线器代理项键,因此可以使用相同的多群集仓库运行中心到中心的Sat加载(第三个垂直条),不过,如果存在大量具有大量列的快速变化的Sat,则可以使用单独的、大小不同的虚拟仓库。在这种情况下,一个更大的仓库可能更有意义。此外,在集线器加载完成后,您可以通过使用第三个多集群仓库来并行运行链路加载和集线器Sat加载。最后,您可以使用第四个多集群仓库来运行链接Sats加载(第四个垂直条)。下图显示了流程中不同虚拟仓库的位置。与雪花中的所有虚拟仓库设置一样,我们建议启用自动挂起和自动恢复,以最大限度地减少日常维护和成本。自然/哈希键加载模式由于使用了源数据中的计算(哈希)键或自然业务键,dv2.0方法允许最大限度地并行加载过程,如下图所示。与dv1.0方法一样,Snowflake提供了充分利用这种负载架构的机会。关于建立这种方法的建议在性质上与上述建议非常相似。首先,为阶段装载(第一个垂直条)设置一个多集群仓库。从那里,您可以使用四个独立的多集群仓库并行运行所有负载(第二个垂直条),如下图所示。使用此配置,您可以在DV上运行连续的加载场景,而无争用。使用多集群仓库还允许您迭代地将新的源负载和新的对象(集线器、链接、sat)添加到模型中,而不必担心达到并发阈值。请记住:您只需为所使用的内容付费,因此,即使多集群仓库的最大集群设置为10,也只有在负载中存在排队的情况下,才会启用这些额外的集群。附加提示对于这里讨论的两种装载模式,我们建议您进行一些初始测试,以确定各种虚拟仓库的最佳T恤尺寸。您可能会发现,您可以使用较小的仓库作为集线器和链接,但您可能会从sat使用较大的仓库中受益。选择尺寸的最佳方法是通过实证检验。在本系列的第3部分中,我将讨论您可能在DV中使用的雪花的一些附加特性。其中包括使用变量列类型和使用多表插入。同时,请务必在@SnowflakeDB和@kentgraziano上关注我们,了解DV和雪花云数据平台的所有最新消息和创新。特别感谢雪花解决方案架构师keithhoyle,帮助我审查和测试这些概念,并做了原始的图表。就像你读的?通过喜欢和分享来表达你的感激之情!Facebook推特LinkedIn