云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

云存储_华为服务器售后_最新活动

小七 141 0

如何使用Azure数据块将ETL管道从18小时加速到5分钟

azuredatabricks使组织能够将本地ETL管道迁移到云上,从而显著提高性能并提高可靠性。如果您现在使用的是SQLServerIntegrationServices(SSIS),有多种方法可以在Microsoft Azure上迁移和运行现有管道。内部ETL管道的挑战在与客户交谈时,我们听到的有关内部ETL管道的一些最常见的挑战是可靠性、性能和灵活性。由于许多因素,如CPU、网络和磁盘性能以及可用的本地计算群集容量,ETL管道可能会很慢。此外,数据格式的变化和新的业务需求的出现打破了现有的ETL管道,凸显了灵活性的不足。由于以下原因,内部ETL管道可能会减缓增长和效率:成本——内部基础设施充满了与硬件、维护和人力资本相关的有形和无形成本。可扩展性—数据量和速度正在快速增长,ETL管道需要向上和向外扩展,以满足计算、处理和存储需求。数据集成—必须将来自各种财务、营销和运营来源的数据组合起来,以帮助指导您的业务投资和活动。可靠性——内部大数据ETL管道可能因多种原因而失败。最常见的问题是数据源连接的更改、群集节点的故障、存储阵列中磁盘的丢失、电源中断、网络延迟增加、连接暂时中断、身份验证问题以及ETL代码或逻辑的更改。Azure Databricks的帮助将ETL管道迁移到云端在这些领域都有显著的好处。让我们看看azuredatabricks是如何具体解决这些问题的。低成本–只为您使用的资源付费。无需提前购买物理硬件,也无需为很少使用的专用硬件付费。优化的自动缩放——使用Azure数据块的基于云的ETL管道可以随着数据量和速度的增加自动扩展。本地集成—使用90多个本机连接器将所有数据摄取到可靠的数据池中。可靠性—利用Azure计算、存储、网络、安全、身份验证和日志记录服务,最大限度地减少停机时间并避免中断。邦德品牌忠诚度如何利用Azure数据库加速价值实现邦德品牌忠诚度为世界上最具影响力和最有价值的品牌提供客户体验和忠诚度解决方案,涵盖从银行业和汽车制造业,到娱乐业和零售业。对于Bond来说,保护客户数据是重中之重,因此安全和加密始终是首要考虑的问题。邦德不断创新,以加速和优化他们的解决方案和客户体验。邦德为客户提供定期报告,帮助他们了解自己的品牌表现。他们需要将报告速度从几周提高到几小时。邦德希望通过第三方来源的数据来增加其报告。由于数据的大小,将信息存储在事务性数据库中是没有意义的。Bond团队研究了迁移到Delta-lake的数据湖架构以支持高级分析的概念。该团队开始从不同来源收集数据,将其放在数据湖中,并在数据处理的每个阶段对其进行分段。通过使用azuredatabricks,Bond能够利用这些丰富的数据,向客户提供更强大、更接近实时的报告。邦德现在可以每4小时提供更灵活的报告,而不是典型的需要一个月才能生成的预先准备好的报告。图表:高级分析架构从每月报告到每4小时更新一次的报告可以提高效率。邦德曾经有仓库、报告立方体和灾难恢复来支持旧世界。现在,有了azuredatabricks,Bond发现它的数据管道和报告更容易维护。以前使用SSI在本地运行需要18个小时的ETL管道现在只需5分钟即可运行。作为向现代简化架构过渡的副产品,Bond能够将管道创建活动从两周减少到大约两天。有了azuredatabricks和Delta湖,Bond现在有了更快的创新能力。该公司正在用机器学习(ML)预测来扩充数据,以协调活动,并实现更深层次的活动个性化,以便客户能够向其客户提供更相关的产品。多亏了azuredatabricks,Bond可以轻松地扩展其数据处理和分析,以支持业务的快速增长。从将SSIS管道迁移到云开始客户已经成功地将各种本地ETL软件工具迁移到Azure。由于许多Azure客户将SQL Server Integration Services(SSIS)用于其本地ETL管道,所以让我们更深入地了解如何将SSIS管道迁移到Azure。有几个选项,您选择的选项取决于几个因素:管道的复杂性(输入和目标数据源的数量和类型)与源和目标数据存储的连接依赖于源数据存储的应用程序的数量和类型在Azure数据工厂上执行SSIS包对于喜欢分阶段将数据管道迁移到Azure数据库的数据团队来说,这是一个很好的过渡选择。利用Azure数据工厂,您可以在Azure中运行SSIS包。图表:使用Azure数据工厂执行SSIS包使用Azure Databricks笔记本更新ETL管道azuredatabricks使您能够通过在可伸缩计算集群上并行化操作来加速ETL管道。如果您希望使用ETL管道处理的数据量、速度和种类预计会随着时间的推移快速增长,则此选项是最佳选择。您可以利用SQL with Databricks笔记本来使用Delta lake查询数据湖。图表:使用Azure Databricks在Azure数据工厂中的转换从SSIS切换到Azure Databricks当考虑将ETL管道迁移到Azure Databricks和Azure Data Factory时,请从以下几点开始您的发现、规划和路线图:数据量–每批处理多少数据?数据速度–您应该多长时间运行一次作业?数据多样性—结构化数据与非结构化数据?图:Databricks迁移方法下一步,确保您的目标数据体系结构利用Delta-Lake实现可伸缩性和灵活性,支持不同的ETL工作负载。图表:使用Azure数据工厂、Azure Data Lake存储、Delta Lake和Azure数据块进行规模化ETL迁移和验证ETL管道当您准备好开始ETL迁移时,首先将SSIS逻辑迁移到Databricks笔记本,在那里可以交互式地运行和测试数据转换和移动。一旦笔记本电脑正常运行,就可以在Azure数据工厂中创建数据管道来自动执行ETL作业。最后,通过查看目标数据湖中的数据,检查日志中的错误,然后安排ETL作业和设置通知,验证从ssi到Databricks的迁移结果。将ETL过程和工作负载迁移到云端有助于加快结果、降低成本和提高可靠性。了解更多关于现代数据工程与Azure数据库,并使用SQL查询您的数据湖与三角洲湖,请参阅这篇ADF博客文章和本ADF教程。如果您已经准备好体验ETL管道的加速,请安排一个演示。免费试用Databricks。今天就开始吧