服务器_老九门全集百度云_高性能

小七 2019年10月25日 21:23 141 0

数据智能化的12个步骤：第2部分

组织、环境和判断：在数据智能之旅中走得更远我们的任务是评估为什么一家公司的客户流失率很高。我们如何推动一个结果是准确的，可操作的，低努力，以便公司可以防止未来的流失？我们将分12步走上数据智能之旅。我们从这里开始；现在，让我们考虑一下：第4步-编目：注册和上下文化所有事物数据或使用数据的事物第5步-沿袭和使用：了解数据的来源、如何传播以及在其传播过程中发生了什么第6步-分析和评分：显示关键特征、分布和异常值，以揭示最可信的数据在这个系列中，我们正在旅途中。我们关注的是克利夫，一位商业分析师，他的任务是试图找出为什么他的公司——这家在许多方面都做得很好——正在经历一个令人担忧的高客户流失趋势。鉴于这一数量庞大，公司必须迅速采取行动，但必须准确地找出根本原因，并制定有效的行动计划。无所作为是不好的。错误的行动更糟。答案是数据。但是什么数据？这是数据智能的基础。数据属于每一个知识工作者，应该以这样一种方式在组织生态系统中流动，以便让业务专业人员以他们需要和选择的各种方式进行连接、交流和协作。我们和克里夫在一起，他试图找到解决这个现实世界问题的办法。在最后一篇文章中，我们介绍了这段旅程的前三个步骤：业务术语表：开发一种通用语言，以确保企业中常用的每个术语对每个用户来说都是相同的数据域：识别真正推动业务的名词-员工、产品、客户、位置等等-以提供企业的规范视图策略和参考资料管理：角色和责任、数据所有权、数据使用协议、保留和销毁策略等等，都是执行和遵守公司定义和法规定义的规则和指南的框架尽管这些步骤很艰巨，有时也很乏味，但跳过或匆匆走过这些步骤，就等于放弃了一个没有实质内容的快速回答的诱惑。所以，让我们继续前进第四步：编目大多数公司在整个企业中都有大量分散的数据和数据源。同时，还可以方便地对这些数据进行检索和检索，以及检索所需的大量数据项等。这似乎是数据管理最基本的方面，但同样，障碍是相当大和耗时的。编目包括：海量：物理元素（如数据库列）可以达到数亿频繁的冗余：相同的数据可以多次复制并以不同的名称重新存储无数的变化：不同的用户有不同的命名约定；特定数据集的大小和形状在整个企业中都是不同的编目从发现开始——识别和区分数据库、报告、算法、API、主题等等。它将数据组织（并重新组织）到可访问的字段（如表/列），并跟踪数据移动，如从工作簿到报表。它不仅加速了机器学习，而且突出了过程中使用的数据目标是标识每个与数据相关的元素，并将其与规范域模型中的逻辑对等元素相关联（从步骤2开始）。例如，在步骤2中，假设您创建了客户域模型，客户的逻辑属性之一是出生日期。在对Salesforce自动化解决方案进行编目时，您会发现一个标题为Attr峎Dt的物理列。由于缺乏专业知识，很难确定这种物理属性代表什么。数据管理员可能采取的下一个逻辑步骤是评估表名、相邻的列名，甚至是Attr琰Dt列中的示例数据。这可能需要几分钟或更长时间。现在假设您有500万个物理列，比如Attr峎Dt。对于500万个物理属性，每个物理属性1分钟，这项工作需要一个数据管理员近40人年才能完成（每天8小时，每年261个工作日）。考虑到这对任何人来说都是不可接受的，编目的行为需要自动化，不仅要发现数据，还要通过逻辑域模型将数据上下文化（也称为分类）。通过使用分类算法（机器学习），自动化下一步的逻辑步骤（表名、相邻列、样本和内容检查），公司可以将40人年从根本上减少到几个月、几周甚至几天的人工工作量。考虑对事件进行编目是不合适的；相反，这是一个持续的过程。将出现以前未编目的新数据集。也就是说，你不必像克里夫那样，把生态系统中的所有东西都分类，才能开始为你的用户提供价值。数据智能图的引导（通过编目关联和链接节点）会吸引用户的采用、使用和贡献。这相当于在你准备好每一个货架之前就开始营业；你的消费者会很乐意对你还需要关注的东西提出建议和意见。第五步：传承和使用以开店比喻为例，基本步骤（步骤1-3）相当于创建实体建筑，编目相当于以深思熟虑（分类）的方式储存货架，那么就可以合理地认为，像克里夫这样的购物者会想更多地了解货架上的商品在决定放进她或他的购物车之前。其中一个值得关注的问题是，这些数据是从哪里来的，还有谁在使用它？将数据沿袭合并到知识图中可以解决这些具体问题。与编目不同，数据沿袭需要一种发现和收获方法。有多种方法可以发现和获取数据沿袭信息，例如从SQL（例如，存储过程）、ETL/ELT技术、报告/BI平台和代码扫描。所收集信息的处理器应在其基本核心处挖掘物理元素（节点1）、第二物理元素（节点2）以及将节点1的值插入节点2之前对其进行的任何逻辑（例如，转换）。然后，这些节点可以与编目节点（称为缝合）链接回去，并在数据智能图中的两个节点之间建立链接（或边）。沿袭帮助组织将不同的系统和流程连接起来，以提供整个企业中数据如何在概念、逻辑和物理层上流动的完整画面。在什么地方编目可以让人们在休息时发现，沿袭它是如何到达那里的，以及它从那里去哪里数据沿袭揭示了数据在其生命周期中如何通过与系统、应用程序、api和报表的交互进行转换。它自动映射数据之间的关系，以显示如何构建、聚合、获取和使用数据集，提供完整的端到端关系可视化这增加了原始数据的准确性和理解力，增强了信任，并促进了更敏锐的推断和业务洞察力。它甚至可以对下游系统的任何更改进行粒度级别的影响分析（列式、表式或业务报告）。这是一种战略优势，反映了最近的进展。在数字时代的大部分时间里，数据架构师必须手动在大数据量之间建立关系来创建谱系图。较新的技术使大部分工作（几乎）自动完成，而且效率更高。今天，通过从分散的源系统中自动提取血统并保持更新，组织可以将资源用于战略计划，而不是无休止的数据映射除了清晰的业务优势（如帮助Cliff识别客户行为模式）外，沿袭还可以在确保法规遵从性方面发挥关键作用。技术沿袭视图允许用户可视化转换，深入到表/列/查询级别的沿袭，并在数据管道中导航。这对于向监管机构提供必要的信息非常重要第6步：分析和评分再次，回顾一下Cliff的购物例子，在评估两个或多个选项时，一个常见的要求就是能够根据对你来说重要的东西来比较你的选择。假设Cliff正在为他或她的客户流失分析寻找数据集时，Cliff认为年龄是进行细分的一个重要标准。当Cliff评估他或她在一系列系统（例如Salesforce Automation、ERP、订单管理、Web等）中对客户数据的选择进行评估时，Cliff将有助于确定这些数据集中哪一个提供了最理想的数据质量和准确性。使用prior的购物例子，Cliff想看看配料，并将它们与他或她的选择进行比较。提供"成分"可见性的一种常见方法是描述在给定的物理数据列中可以找到的内容。分析提取统计信息，如行数、%null、%invalid、频度分布、最小长度等。这些信息可能对热衷于数据科学和数据质量的用户有用，但对于Cliff这样的购物者来说，这在很大程度上是不可读的，或者需要花费太多精力来作为快速决策的指南。但是想象一下，如果你可以根据从分析中收集到的所有统计信息来计算分数。进一步想象一下，如果这个分数能帮助你快速地对你的选项进行排名和排序，你就可以选择最好的数据集来利用ea

本文地址： /cunchu/10700.html