域名备案_阿里云域名转入_优惠

小七 2019年10月25日 21:23 141 0

宣布在Databricks Runtime 7.1中支持Google BigQuery

在Databricks，我们正在为数据和人工智能构建一个统一的平台。企业中的数据存在于许多位置，而Databricks擅长于将数据统一到任何位置。今天，我们很高兴地宣布在Databricks Runtime 7.1中支持在googlebigquery中读写数据。BigQuery简介用Google自己的话说，"BigQuery是一个无服务器、高度可伸缩和经济高效的数据仓库，专门为业务灵活性而设计。"BigQuery是分析Google云平台上存储的数据的流行选择。实际上，BigQuery是一个分离计算和存储的柱状数据仓库。它还支持ANSI:2011 SQL，这使得它成为大数据分析的有用选择。Databricks用户的增强功能Databricks Runtime 7.1中包含的Spark数据源是Google开源Spark bigquery连接器的一个分支，它使得从Databricks使用bigquery变得更加容易：减少数据传输和更快的查询：Databricks自动下推某些查询谓词，例如，将嵌套列过滤到BigQuery，以加快查询处理并减少数据传输。这些优化将自动应用于查询。直接查询：使用现有的Spark api转换和过滤BigQuery表中的数据首先意味着将大量数据从BigQuery传输到Databricks。为了降低数据传输成本，我们添加了这样的功能：首先使用query（）API在BigQuery上运行SQL查询，然后只传输结果数据集。示例下面的示例显示了BigQuery用户开始使用databrick是多么容易。将BigQuery SQL查询的结果读入数据帧val table="bigquery公共-data.samples.莎士比亚"val tempLocation="databricks_测试"//将整个表读入数据帧值df1=spark.read.format（"bigquery"）.option（"表"，表）.load（）//将BigQuery SQL查询的结果读入数据帧值df2=spark.read.format（"bigquery"）.option（"materializationDataset"，模板位置）.option（"query"，s"SELECT count（1）FROM`${table}`"中）.加载（）。收集（）将数据帧写入BigQuery表数据框写入.format（"bigquery"）.mode（"append"）.option（"临时gcsbucket"，模板位置）.option（"表"我公司员工").save（）用例对BigQuery的支持将支持新的用例，包括我们的客户正在构建的以下示例：对存储在Google云中的数据进行高级分析和机器学习：利用Databricks的协作数据科学环境的强大功能来提高数据团队的生产力。您还可以标准化从实验到生产的ML生命周期，并在googlecloud中对数据启用ML和AI。多云数据集成：如果你的一部分数据驻留在Google云中，你可以使用Databricks来整合数据仓库，释放数据的全部价值。有关如何开始的详细信息，请参阅文档。免费试用Databricks。今天就开始吧

本文地址： /zhuji/2982.html