数据库_土豆服务器_高性能

小七 2019年10月25日 21:23 141 0

新的Databricks数据摄取网络：应用程序、数据库和大数据集成到Delta Lake的合作伙伴生态系统

组织在各种来源中都有大量的信息，将这些数据集中到BI、报告和机器学习应用程序中是实现数据业务价值的最大障碍之一。数据源从操作数据库（如Oracle、MySQL等）到SaaS应用程序（如Salesforce、Marketo等）各不相同。将所有这些数据摄取到一个中央的lakehouse通常很困难，在许多情况下，需要自定义开发和几十个连接器或API，这些连接器或API随着时间的推移而变化，然后中断数据加载过程。许多公司使用完全不同的数据集成工具，这些工具需要数据工程师编写脚本和调度作业、调度触发器和处理作业失败，这不会扩大规模并造成巨大的运营开销。介绍数据接收网络为了解决这个问题，今天我们推出了我们的数据摄取网络，它使您能够以一种简单而自动化的方式将您的湖边小屋从数百个数据源填充到三角洲湖。今天宣布的众多合作伙伴加入了我们的数据接收网络，我们对此感到兴奋——Fivetran、Qlik、Infoworks、StreamSets、Syncsort。它们与数据接收的集成提供了数百个应用程序、数据库、大型机、文件系统和大数据系统连接器，并使自动化能够快速、可靠地将这些不同的数据移动到一个开放的、可扩展的数据库库中。使用azuredatabricks的客户已经从与azuredatafactory的本机集成中受益匪浅，可以从许多源获取数据。数据摄取网络的主要优点1实时、自动化的数据移动摄取过程针对更改数据捕获（CDC）进行了优化，并使加载新的或更新的数据集轻松实现自动化。数据工程师不再需要花费时间开发这种复杂的逻辑，或者每次都手动处理数据集。三角洲湖的数据可以自动与变化同步并保持最新。2现成的连接器数据工程师、数据科学家和数据分析师可以通过SaaS应用程序（如Salesforce、Marketo、Google Analytics）和Oracle、MySQL和Teradata等数据库以及文件系统、大型机和许多其他应用程序的合作伙伴的数据摄取网络，访问现成的连接器。这使得设置、配置和维护到数百个不同源的数据连接变得更加容易。三。数据可靠性将数据摄取到Delta Lake中支持ACID事务，使数据可以随时查询和分析。这使得更多的企业数据可用于BI、报告、数据科学和机器学习应用程序，以推动更好的决策和业务成果。分3步设置数据摄取最终用户可以通过Databricks合作伙伴库发现并访问集成设置伙伴的数据摄取网络。第1步：合作伙伴库导航到Partner Integrations菜单以查看合作伙伴的数据摄取网络。我们称之为合作伙伴画廊。按照所选合作伙伴的设置指南进行操作。步骤2：设置数据块接下来，设置您的Databricks工作区，使合作伙伴集成能够将数据推送到Delta湖。执行以下操作：创建一个Databricks令牌，该令牌将用于合作伙伴产品的身份验证从Databricks集群页面复制JDBC/ODBC URL步骤3：选择数据源，选择Databricks作为目的地使用合作伙伴产品，选择要从中提取数据的数据源，并选择Databricks作为目标。输入第2步中的token和JDBC信息，并设置作业，该作业将从数据源提取数据并以Delta-Lake格式将其推送到Databricks中。就这样！你的数据现在在三角洲湖，准备查询和分析。强大的数据源生态系统，可满足数据摄取需求数据摄取网络是一个托管产品，允许数据团队使用自动加载和自动更新功能从数百个数据源复制和同步数据。Fivetran、Qlik、Infoworks、StreamSets和Syncsort现在都可以使用，还有azuredatafactory已经为azuredatabricks客户提供了本机集成，可以从许多源获取数据。通过这些合作伙伴，可以访问基于云的和内部部署的大量数据源。数据摄取网络的目标借助数据摄取网络，我们着手构建数据访问生态系统，让客户认识到将大数据与来自基于云的应用程序、数据库、大型机和文件系统的数据结合起来的潜力。与传统ETL相比，通过简化数据接收过程，客户能够克服复杂性和维护成本，这些复杂性和维护成本通常与从许多不同来源收集数据有关。这加快了跨BI、报告和机器学习应用程序的数据实现业务价值最大化的道路。要了解更多信息：报名参加我们的网络研讨会：介绍Databricks摄取：轻松地将数据加载到Delta Lake中，以启用BI和ML。与专家交谈：联系我们免费试用Databricks。今天就开始吧

本文地址： /zhuji/3308.html