云存储_如何部署云服务器_促销

小七 2019年10月25日 21:23 141 0

数据块上的实时数据仓库：更改读取时的数据捕获和模式

几个月前，我们举办了一个在线研讨会——实时数据仓库在Databricks上的应用：更改数据捕获和读取模式——讨论了如何在数据块上构建一个实时数据仓库，重点是从关系数据库执行变更数据捕获，并将这些数据连接到各种数据源。网络研讨会可以按需访问，其幻灯片和示例笔记本也可以作为网络研讨会的附件下载。加入Databricks社区版测试版，免费访问apachespark并试用笔记本电脑。我们回答了以下网络研讨会观众提出的常见问题。如果您还有其他问题，请访问Databricks论坛。常见网络研讨会问答单击问题以查看答案：替换ETL会很棒。我的企业数据仓库的成本让我非常痛苦（包括Oracle和Teradata）。我可以更进一步，使用Spark和nosqldb（比如Mongo或Cassandra）以及底层的Hadoop存储层一起使用，完全取代ETL层和EDW吗？关于JSON，如果我在一个S3存储桶中有一系列单独的JSON文件，我是否可以在一次读取多个JSON文件时使用schema应用"SQL"查询？在CDC的第一张幻灯片上，显示了日期为1/2、金额为250美元的记录。然后在源数据库中更新了1/5的金额350美元。第二行被添加到目标数据库，现在有两行，一行250美元，一行350美元。目标数据库中的两行都显示了1/5的更新日期。是故意的，更新目标数据库中原始行的最后更新日期吗？我本以为250美元的那一行不应该更改它的最后更新日期。你能分享一些关于如何处理列重命名的想法吗？S3和Spark上的parquet真的可以取代像Teradata或Redshift这样的MPP数据仓库，并且仍然获得相同的MPP性能吗？免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3418.html