轻量服务器_焦作网站建设公司_高性能

小七 2019年10月25日 21:23 141 0

Databricks和Informatica加快了智能数据管道的开发和完整的数据管理

分析和机器学习对组织的价值是众所周知的。我们最近的CIO调查显示，90%的企业都在投资于分析、机器学习和人工智能。但我们也注意到，最大的障碍是在正确的位置以正确的格式获取正确的数据。因此，我们与Informatica合作，通过启用新的方法来发现、吸收和准备用于分析的数据，使组织能够取得更大的成功。直接将数据输入三角洲湖将混合数据源中的大量数据以一种可靠且高性能的方式放入数据湖是很困难的。数据集常常被丢弃在未被管理的数据池中，而没有考虑到任何目的。数据被转储到没有一致格式的数据池中，这使得无法混合读取和附加。在将数据写入数据湖的过程中，数据也可能会损坏，因为写入操作可能会失败并留下部分数据集。Informatica云数据摄取（CDI）支持从数百个数据源摄取数据。通过将CDI与三角洲湖相结合，可以利用三角洲湖的优势进行智能摄取。ACID事务确保写入完成，或者在写入失败时被退回，不留下任何工件。Delta-Lake模式强制确保数据类型是正确的，并且所需的列存在，从而防止坏数据导致数据损坏。Informatica CDI和Delta Lake之间的无缝集成使数据工程师能够快速地将来自多个混合源的大量数据摄取到具有高可靠性和高性能的数据湖中准备每个组织的资源都有限，无法格式化用于分析的数据。要确保数据集可以在ML模型中使用，需要复杂的转换，而创建这些转换非常耗时。没有足够的高技能的数据工程师来为大规模的数据编写高级ETL转换代码。此外，ETL代码很难进行故障排除或修改。Informatica大数据管理（BDM）和Databricks统一分析平台的集成使得为大规模数据创建大容量数据管道变得更加容易。BDM的拖放界面减少了创建数据管道的代码的需要，从而降低了团队创建数据转换的门槛。BDM易于维护和修改的管道可以通过将工作推到处理中来利用数据块的高容量可伸缩性。其结果是为机器学习项目开发更快速、成本更低的大容量数据管道。管道的创建和部署增加了5倍，管道更易于维护和故障排除。发现为机器学习找到合适的数据集是很困难的。数据科学家浪费宝贵的时间为他们的模型寻找合适的数据集来帮助解决关键问题。它们无法识别哪些数据集是完整的、格式正确的，并且已经过适当的验证，可以作为正确的数据集使用。随着Informatica企业数据目录（EDC）与Databricks统一分析平台的集成，数据科学家现在可以为创建模型和执行分析找到正确的数据。Informatica的CLAIRE引擎使用人工智能和机器学习自动发现数据，并为数据科学家提供智能建议。数据科学家可以快速找到、验证和提供他们的分析模型，大大缩短了实现价值的时间。Databricks可以无限规模地运行ML模型，以实现高影响力的洞察力。EDC现在也可以跟踪Delta Lake中的数据，使其成为企业数据目录的一部分。血统追踪分析数据处理的血统几乎是不可能的。数据工程师和数据科学家无法提供任何血统证明来显示数据的来源。当数据被处理以创建模型时，识别数据集、模型的哪个版本，甚至是使用了哪些分析框架和库变得如此复杂，已经超出了我们手动跟踪的能力。随着Informatica EDC的集成，以及Delta Lake和MLflow运行在Databricks中，数据科学家可以验证源数据的血统，跟踪Delta湖中数据的确切版本，并跟踪和复制用于处理数据以进行分析的模型、框架和库。这种从数据科学决策一直跟踪到源代码的能力为组织提供了一种强大的方法，可以根据需要审核和复制结果，以证明法规遵从性。我们对这些集成以及它们将对组织的成功产生的影响感到兴奋，因为它们使企业能够自动化数据管道并提供对这些管道的更好的见解。欲了解更多信息，请注册参加本次网络研讨会https://dbricks.co/INFA19。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3218.html