分布式存储_林俊杰百度云_免费1年

小七 2019年10月25日 21:23 141 0

Informatica数据工程如何使用Databricks减少Hadoop

早在5月份，我们就宣布与Informatica建立合作关系，在两个平台之间构建一套丰富的集成。对于团队来说，这是一项令人兴奋的工作，因为我们可以为联合客户做些什么，这些客户将我们的托管三角洲湖与Informatica的大数据管理和企业数据目录相结合。这一愿景促使我们使用我们在第一篇博文中概述的"智能数据管道"一词。客户可以拥有一个支持数据的解决方案工程师可以快速将来自多个混合源的大量数据摄取到云中，将这些数据流化到优化的数据池中，并确保数据得到适当的管理，使其准确无误，并为下游分析和ML做好准备。将大数据工作负载从本地Hadoop迁移到云最近，我们特别关注希望将其大数据工作负载从本地Hadoop迁移到云的组织。与价值更高的高级分析和机器学习相比，这些数据团队仍在数据准备和吸收上花费大量时间。Hadoop的核心服务如YARN和HDFS管理复杂，导致TCO高，用户必须手动配置和优化集群以进行扩展和缩小，这非常耗时，并直接影响基于Hadoop的数据湖的可靠性和性能。关于Hadoop到云迁移的关键问题从Hadoop迁移到云是否会减轻管理共享集群的操作负担？在迁移到云端时，您如何管理计算和存储？迁移到像Databricks这样的云原生平台的主要好处是什么？数据块与纱线和高密度纤维相比如何？这些问题正是这个由Informatica和Databricks共同撰写的博客的主题。本书详细回顾了从Hadoop迁移到Databricks的架构变化，另外还介绍了Hadoop迁移的最佳实践，以充分利用Databricks和Informatica数据工程集成。请看！免费试用Databricks。今天就开始吧

本文地址： /zhuji/3268.html