香港带宽_水桶服务器_代金券

小七 2019年10月25日 21:23 141 0

cdn加速_国内_个人主页自助建站

Presto是一个开源的分布式SQL查询引擎，用于对各种大小的数据源运行交互式分析查询。我们很高兴地宣布，Presto分布式SQL大数据查询引擎现在可以作为CloudDataProc的可选组件在公测版中使用，CloudDataProc是我们运行ApacheSpark和Hadoop集群的完全托管云服务。像Presto这样的可选组件可以让您扩展集群上运行的开源软件应用程序的数量。这些可选组件带来了快速的集群启动时间、与Cloud Dataproc其余部分的集成测试以及Google云平台（GCP）的支持CloudDataProc已经为SQL作业类型提供了SparkSQL和Hive on Tez。另外，Cloud Dataproc已经有了一个连接到BigQuery的连接器，BigQuery是GCP的无服务器企业数据仓库，使用标准SQL。

Presto的独特之处在于，单个Presto查询可以有效地处理来自多个来源的数据，超级淘客，美国云服务器，如HDFS、云存储、MySQL、Cassandra，甚至Kafka。它是一种受良好支持的方法，可以跨大型CloudDataProc实例和其他源运行联合查询。因此，连接器成为一个伟大的工具，特别是分析，让您快速回答一次性的问题，需要连接不同的系统。（我们将在本文后面使用公开的芝加哥出租车数据来演示其中一个问题的示例。）

Presto还可以帮助您规划下一个BigQuery提取、转换和加载（ETL）作业。使用Presto，您可以跨本地系统和其他云查询各种数据源。这可以让您更好地了解如何链接数据集，确定需要什么数据，并设计一个广泛的、非规范化的BigQuery表来封装来自多个底层源系统的信息。

Cloud Dataproc可选组件意味着Cloud Dataproc负责Presto的集群集成和测试，因此，您不需要编写将协调器和工作器联系在一起的脚本，配置Presto以利用您的配置单元元存储，返现app，并使用最新版本的Presto更新这些脚本。

由于可选组件是Cloud Dataproc映像的一部分，您可以期望任何新配置的Presto集群在不到10分钟的时间内启动并运行平均90秒。这种快速启动时间可以转化为快速的数据查询，物联，而无需让集群处于启动和运行状态，也无需花费时间等待集群进行自我配置。您可以考虑一个问题，并在Cloud Dataproc上创建一个Presto集群来回答这个问题，而不会失去您的思路。

除了标准的Cloud Dataproc定价之外，Presto没有额外的费用，因此Cloud Dataproc是一种经济高效的运行Presto的方式。由于Presto经常用于探索不熟悉的数据集，并且可以扩展到PB大小的查询，因此按每个查询扫描的数据付费的定价模型可能会变得非常昂贵。CloudDataProc只对您指定的基础资源收费。您可以将自动缩放集群与Presto结合使用，大数据分析数据库，这样您就可以在需要时灵活地增加计算资源，但不超出预定义的预算。

与Cloud Dataproc和Presto相关的一种常见架构模式是将大数据连接到存储在单独关系数据库中的引用数据。这可能是在cloudsql中，如本例所示，但也可能是在prem上或在另一个云中。我们将通过这个架构来帮助解释配置，并提供一些跨多个Presto集群创建持久表和视图的最佳实践。

本文地址： /ziyuan/57602.html