云存储_华为云账号密码找回_高性能

小七 2019年10月25日 21:23 141 0

使用数据块和流集实现数据湖和云ETL的自动化和快速跟踪

数据湖摄取是现代数据基础设施的关键组成部分。但是，当企业必须将这些数据用于分析和机器学习工作负载时，往往会遇到挑战。将来自不同来源的大量数据整合到一个数据湖中非常困难，如果它同时来自批处理源和流式数据源，则更是如此。大数据通常是无组织的，并且在格式和数据类型上不一致。这使得更新数据湖中的数据变得困难。由于查询速度慢和缺乏实时访问，结果是开发环境跟不上进度。此外，它还导致数据质量不足，数据湖的总体性能较差，进一步推迟了生产部署。通过智能ETL摄取带来速度和灵活性组织可以做些什么来让他们的数据湖更高效、更有用？上面讨论的挑战可能会大大减缓组织的云分析/数据科学计划，尤其是如果这些挑战仅限于数据工程和数据科学专业人员。数据工程师把时间浪费在即席的概念验证沙箱上，同时努力将数据转换为生产。反过来，数据科学家缺乏信心将这些数据用于分析和机器学习应用程序。Databricks和streamset已经合作，通过自动化摄取和数据转换任务来加速云计算的价值。联合解决方案为云数据处理带来了快速的管道设计和测试。streamsetsdatacollector和Transformer提供了一个拖放界面，用于设计、管理和测试云数据处理的数据管道。这一合作伙伴关系将Databricks和Delta Lake的力量带给了更广泛的受众。Delta-Lake可以统一来自不同来源的批处理和流式数据，并以数据仓库的速度进行分析。它支持事务性插入、删除、升迁和查询。它提供了ACID遵从性，这意味着任何写入操作都将始终完成，失败的作业都将完全退出。集成提供了几个关键好处：以更少的数据工程资源开销更快地迁移到云使用拖放界面，可以轻松地从多个不同的源获取数据使用Delta Lake更好地管理云数据湖的数据质量和性能将数据捕获（CDC）功能从中的多个数据源更改为Delta Lake降低了Hadoop迁移中断的风险，加快了从prem到云计划的价值实现持续监控数据管道以降低支持成本并优化ETL管道带流集的数据链体系结构利用可视化管道开发将数据采集到三角洲湖数据团队花费大量时间在其当前的数据架构中构建ETL作业，而这往往是复杂的和代码密集型的。例如，组织可能希望了解生产中的实时使用情况，并运行历史报告来分析一段时间内的使用趋势，而不会因为复杂的ETL处理而减慢速度。克服混乱的数据问题、损坏的数据和其他挑战需要验证和重新处理，这可能需要数小时甚至数天的时间。流数据的查询性能可能会进一步降低速度。数据块和流集的集成解决了这一问题，允许用户设计、测试和监视批处理和流式ETL管道，而不需要编码或专业技能。StreamSets的拖放界面使得将来自多个源的数据摄取到Delta-Lake变得非常容易。通过它的执行引擎StreamSets Transformer，用户可以创建在apachespark上执行的数据处理管道。Transformer生成在Databricks集群上执行的本机Spark应用程序。下面是一个使用流集创建Delta摄取管道的示例，其中Kafka是源，Delta是目的地。在Transformer中有一个本地的Delta湖目的地，非常容易配置。您只需指定Delta数据集的位置，它可以是DBFS挂载，来自Kafka（或Transformer支持的任何其他源）的数据流到目标Delta表中。Transformer还可以对Delta表执行转换，Delta表是可视化的，但在运行时转换为Spark代码，并作为Spark作业下推到Databricks集群中，这样联合客户只需点击几个按钮，就可以享受到完全管理的数据工程和AI平台的规模、可靠性和灵活性。下面是一个转换管道的示例，其中源和目标都是Delta-Lake表，中间步骤是在源表上完成转换。Transformer通过简单的restapi与数据块通信。它通过这些安全的api在databrick中协调代码的上传和作业的运行。变压器管道中的简单配置对话允许客户将变压器连接到他们的Databricks环境。请注意，Transformer在Databricks中同时支持交互式集群和数据工程集群，这使客户能够灵活地为正确的用例选择正确的集群类型。对三角洲湖管道的监控也是集成的一个关键能力，因为它为客户提供了一个直观的窗口，了解摄入工作或改造管道的健康状况和状态。例如，下面的屏幕截图描述了从关系源Kafka到Delta表的记录流，可以监视它的吞吐量或记录计数。利用三角洲湖的合并改变数据采集（CDC）像三角洲湖这样的数据湖将来自多个原始数据源的数据汇集到一个中心位置进行整体分析。如果源数据源中的源数据发生变化，则必须在三角洲湖中反映这种变化，以使数据保持新鲜和准确。同样重要的是，需要可靠地管理这种变化，这样最终用户就不会对部分摄取或脏数据进行分析。变更数据捕获（CDC）就是一种协调源系统和目标系统中变更的技术。StreamSets对流行的关系数据源（如mysql、postgres等）有现成的CDC功能，这使得捕捉这些数据库中的变化成为可能。在许多情况下，流集读取关系系统的二进制日志来捕获更改，这意味着源数据库不会受到CDC管道的任何性能或负载影响。Streamsets已经实现了Delta的合并功能，这使得通过一个简单的可视化管道自动协调从CDC源到Delta表的更改成为可能，从而为客户简化从源系统到Delta湖的CDC管道。因为StreamSets使用Delta来实现CDC管道，所以客户可以从Delta Lake在CDC摄取过程中的事务语义和性能中获益，这保证了新的可靠数据在湖中是可用的，其格式是为下游分析而优化的。如何开始使用数据块和流集新的摄取解决方案我们对这种集成及其在加速云中的分析和ML项目的潜力感到兴奋。要了解更多信息，请在云网络研讨会中注册管理大数据管道。我们将展示一个现场演示，演示构建大容量数据管道将数据传输到三角洲湖是多么容易。相关资源Delta Lake–为您的数据湖带来数据可靠性和性能StreamSets Transformer–apachespark的强大功能减去了复杂性使用Databricks Delta简化变更数据捕获免费试用Databricks。今天就开始吧

本文地址： /zhuji/3280.html