云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

云存储_如何部署云服务器_促销

小七 141 0

数据块上的实时数据仓库:更改读取时的数据捕获和模式

几个月前,我们举办了一个在线研讨会——实时数据仓库在Databricks上的应用:更改数据捕获和读取模式——讨论了如何在数据块上构建一个实时数据仓库,重点是从关系数据库执行变更数据捕获,并将这些数据连接到各种数据源。网络研讨会可以按需访问,其幻灯片和示例笔记本也可以作为网络研讨会的附件下载。加入Databricks社区版测试版,免费访问apachespark并试用笔记本电脑。我们回答了以下网络研讨会观众提出的常见问题。如果您还有其他问题,请访问Databricks论坛。常见网络研讨会问答单击问题以查看答案:替换ETL会很棒。我的企业数据仓库的成本让我非常痛苦(包括Oracle和Teradata)。我可以更进一步,使用Spark和nosqldb(比如Mongo或Cassandra)以及底层的Hadoop存储层一起使用,完全取代ETL层和EDW吗?关于JSON,如果我在一个S3存储桶中有一系列单独的JSON文件,我是否可以在一次读取多个JSON文件时使用schema应用"SQL"查询?在CDC的第一张幻灯片上,显示了日期为1/2、金额为250美元的记录。然后在源数据库中更新了1/5的金额350美元。第二行被添加到目标数据库,现在有两行,一行250美元,一行350美元。目标数据库中的两行都显示了1/5的更新日期。是故意的,更新目标数据库中原始行的最后更新日期吗?我本以为250美元的那一行不应该更改它的最后更新日期。你能分享一些关于如何处理列重命名的想法吗?S3和Spark上的parquet真的可以取代像Teradata或Redshift这样的MPP数据仓库,并且仍然获得相同的MPP性能吗?免费试用Databricks。今天就开始吧