轻量服务器_在线mysql数据库_哪个好

小七 2019年10月25日 21:23 141 0

万迪斯科解决云和数据三角洲的挑战

这是万迪斯科大数据/云产品管理副总裁Paul Scott Murphy的客座博客。在最近的Databricks博客文章和会议上，从Hadoop本地迁移到云是一个常见的主题。他们已经确定了关键考虑因素，强调了合作关系，并描述了通过治理和其他控制将数据移动和流式传输到云的解决方案，并比较了Hadoop和Databricks之间提供的运行时环境，以突出Databricks统一数据分析平台的优势。Hadoop用户在迁移到云端时面临的挑战WANdisco已经与Databricks合作解决了大规模Hadoop迁移的许多挑战。对于大规模采用Hadoop的组织来说，一个特别的挑战是传统的数据重力问题。因为他们的应用程序假设对构建在HDFS上的本地本地数据湖进行就绪、本地、快速访问，因此在不使用该数据的情况下构建应用程序变得非常困难，因为这需要构建额外的工作流来手动复制或访问本地Hadoop数据湖中的数据。如果这些本地数据集继续发生更改，则此问题将在数量级上加剧，因为在环境之间移动数据的工作流增加了一层复杂性，并且不容易处理更改的数据。虽然云为数据湖带来了效率，但人们仍然担心数据的可靠性和一致性。数据湖通常有多个同时读写数据的数据管道，由于缺少事务，数据工程师必须经历一个繁琐的过程来确保数据的完整性。使用Databricks和WANdisco迁移HadoopDatabricks和WANdisco的合作解决了这些挑战，通过在本地系统和云中数据块之间的迁移过程中，提供对不断变化的数据湖的完全读写访问。这个解决方案叫做LiveAnalytics，它利用WANdisco的平台将最大的Hadoop数据集迁移和复制到Databricks和Delta Lake。WANdisco使用一种新的分布式协调引擎来维护配置单元数据和Delta Lake表之间的数据一致性，即使这些数据集继续被修改，WANdisco还是可以大规模迁移数据。万迪斯科的架构和基于共识的方法是实现这一能力的关键。它允许在没有中断、应用程序宕机或数据丢失的情况下进行迁移，并将数据块应用到以前很难引入云端的最大数据池中带来的好处。由于WANdisco LiveAnalytics提供了对Delta Lake和Databricks以及常见Hadoop平台的直接支持，因此它提供了一个令人信服的解决方案，可以将您的内部Hadoop数据带到Databricks，而不会影响迁移过程中您继续使用Hadoop的能力。现在，您可以利用WANdisco的技术帮助您将Hadoop data lake带到Databricks，并在本地支持本地常见的Hadoop平台以及Azure或AWS上的Databricks和Delta lake。相关资源WANdisco LiveAnalytics–自动化数据和元数据复制使用Spark到Hive的数据迁移Informatica数据工程如何使用Databricks减少Hadoop免费试用Databricks。今天就开始吧

本文地址： /zhuji/3276.html