专属服务器_qq企业邮箱设置pop3和smtp_安全稳定

小七 2019年10月25日 21:23 141 0

云主机_如何租用_联想云云存储

博客我们（您的合著者Neha，高级客户解决方案工程师，Chris，分析经理，在Sisense，他们已经受益于数小时的性能监控和深入了解如何最好地管理红移集群。本博客旨在概述您在构建Redshift数据仓库时需要考虑的事项，以确保获得最佳性能。Redshift与BigQuery和Snowflake一样，是一个基于云的分布式多并行处理（MPP）数据库，为大数据集和复杂的分析工作流而构建。从根本上说，它们与我们过去看到的事务性数据库不同，在我们开始讨论如何构建数据仓库之前，了解这种区别是很重要的！OLTP与OLAP首先，我们将深入研究两种类型的数据库：OLAP（在线分析处理）和OLTP（在线事务处理）。OLAP数据库最适合于这样的情况：从数据库中读取的次数多于写入的次数。可以把它想象成一个包含用于支持每日、每周或每月业务kpi的指标的东西。OLAP数据库擅长于需要大表扫描的查询（例如，多行数据的汇总）。Redshift是一种OLAP数据库。另一方面，OLTP数据库非常适合这样的情况：数据被写入数据库的频率与从数据库中读取的频率相同。顾名思义，这方面的一个常见用例是任何事务性数据。比如说，你在跟踪几个账户的金额。数据需要实时更新，无论何时有存款或取款。毕竟，我们希望立即发现任何欺诈交易！OLTP数据库最适合于对数据进行点扫描或短扫描的查询，比如"返回X用户本周的存款数量"比较OLAP和OLTP数据库可能是一个单独的对话，但下面是它们之间的差异的快速总结，以供参考OLAPOLTPWrite一次，读很多次，读取多个用于大表扫描的BEST用于短表扫描通常是从其他源收集数据的仓库通常是馈送到仓库的源之一PB级存储TB级存储列基于列的存储基于行的存储低并发性高并发性示例：Redshift、Bigquery，雪花示例：Postgres、MySQL假设您的用例适合OLAP数据库。那么，您可能是众多选择使用红移仓库的人之一。有一些设置可以调整Redshift查询的性能。我们将在下面回顾这些。选择群集由于您的仓库将是您向业务交付数据的中心点，因此选择与业务需求相匹配的存储和性能级别非常重要。选择正确的节点设置Redshift集群的第一步是选择要使用的节点类型。这个选择将是您的仓库性能的最大驱动因素，所以您在做这个决定时需要考虑最终用户的需求。Redshift为分为两类的节点类型提供了四个选项：密集计算和密集存储。Amazon将密集存储节点（DS2）描述为针对大型数据工作负载而优化的，并使用硬盘驱动器（HDD）进行存储。密集计算节点针对性能密集型工作负载进行了优化，并利用固态驱动器（SSD）提供更快的I/O，但其缺点是每个节点的存储空间较少在每种类型中，都有大小节点类型：Redshift提供的节点类型规范摘要在选择节点类型时，虽然很容易看到Dc2.8XL的存储并选择它，因为它是最大的，但如果您不需要该节点类型，则可能会失去分布式数据库的好处，该数据库可以跨所有节点并行处理查询。这里需要考虑的另一个问题是，dc2.8XL的最小配置是两个节点，因此除非您有存储需求，否则我们建议您一开始不要跳到该选项。随着红移集群的扩展，如果您发现当您有30个dc2.xlarge节点时，什么叫淘客，它会变慢，那么现在可能是考虑迁移到dc2.8xlarge节点的好时机。在某一点上，Redshift集群在查询执行期间试图在节点之间来回传递数据，其性能会降低。为了克服这个I/O障碍，建站系统哪个比较好，您可以减少节点的数量，但通过选择更大的dc2.8XL来保持电源和存储。我们发现使用dc2.xlarge节点与dc2.8XL节点的16:1比率时的性能相当。规划正确的数据量构建仓库的下一步是确定Redshift集群需要的节点数量。您拥有的节点数将控制集群中有多少可用存储空间，大数据分析软件有哪些，因此您的数据量将推动这一决定。在Sisense redshift fleet中，我们发现在大约80%的磁盘消耗量下，查询性能开始下降。您需要考虑您的总数据量，因为它将存储在集群上，并添加额外的30-40%的空间。这个开销被ETL作业消耗掉了：重建表、在执行期间将临时表写入磁盘的复杂查询、复制未压缩的数据以及源数据量的峰值。根据Redshift集群的用途，性能下降可能会非常痛苦。例如，如果您仅将Redshift用于分析目的，则可以在发生这种情况时使用更多节点来扩展集群，并在完成后继续工作。相反，如果您的集群用于生产报告（即仪表板），则会让您的消费者对他们的体验感到失望。考虑到这一点，在计划集群大小时考虑您的用例。群集性能配置WLM公司要配置的主要设置之一是您的WLM（工作负载管理）。WLM可以被认为是"一个集群一次可以管理多少个进程"，它允许控制在给定时间内可以将多少集群计算资源分配给一个查询或一组查询。例如，如果不选中，则可能有消耗大量计算资源的ETL作业。这可能会对其他工作流（如特别分析或BI报告）产生影响。使用WLM，您可以将来自ETL用户或用户组的查询分配给一个特定的WLM，该WLM只能消耗集群可用计算资源的有限百分比。通过这种方式，您可以限制特定的工作流来占用计算资源。WLM还允许控制为特定用户或用户组运行的查询的数量。对于您的报表用户，支持更高的并发性可能很好，但是对于转换工作负载，最好在给定的时间只运行一个转换。使用WLM还可以控制查询并发性。找到最适合您的用例的WLM可能需要一些修补工作，很多地方在6-12之间。短查询加速长查询可以阻止较短、更快的查询返回，因为它们在长时间运行的查询后面排队。为了缓解这种情况，Redshift可以选择启用"short query acceleration"，它允许历史运行时间较短的查询完成，而无需等待较长的查询完成。你可以用WLM和它一起使用，以获得最佳的性能。并发扩展通常，当Redshift集群升迁时，计算和存储资源都会同时升级。但是，免费云服务器永久使用，企业很可能会有这样的场景：他们需要更多的计算能力和更高的并发性来处理积压的查询，但不一定需要更多的存储空间。随着数据仓库解决方案变得越来越流行，并且已经成为报表基础架构从中提取数据的枢纽，像Redshift这样的数据仓库技术的用例也发生了变化。不再只有少数分析师对数据库运行一次性分析查询的查询。我们现在看到这些数据仓库每天处理数千个查询，并满足数百个用户的BI和报告需求。像许多OLAP数据库一样，Redshift最初并不是为了这个目的而构建的，但是他们已经构建了并发伸缩来解决这个特定的问题。如果您的情况是不需要更多的存储，并且使用高峰需要更多的计算资源/并发性，那么Redshift的并发伸缩性将是一个很好的选择，可以减少等待查询开始运行所花费的时间。虽然每个实例可能会看到不同的结果，但在启用并发伸缩时，队列时间减少了90%以上。每当排队的查询超过了WLM在给定时刻所能管理的数量时，Redshift会评估是否值得为运行额外的集群执行排队查询而花费的开销。目前，Redshift提供了最多10个额外集群的能力（总共提供11倍的资源），并具有并发扩展能力用户可以跟踪集群由于并发扩展而导致额外集群旋转的频率。如果经常出现更高的查询量，而不是偶尔达到峰值，那么考虑升迁集群以最小化构建和关闭集群的开销。为性能建模数据数据架构在过去的二十年里，数据格局发生了巨大的变化。所创建的数据量增加了，淘客社区，存储和分析这些数据所需的存储和计算资源变得更便宜和更广泛。通过这种转换，出现了新的技术，改变了数据的存储方式，Redshift也不例外。历史上，t

本文地址： /cunchu/34829.html