阿里云_新域名注册_高性能

小七 2019年10月25日 21:23 141 0

云计算数据_怎么选择_服务器存储优化

人们经常会问，数据治理程序是否不仅自动化了技术元数据的摄取，而且还自动化了技术元数据与其业务上下文的连接。例如，我们可以从一个系统的架构或数据库中，个人用云服务器，将一个表及其列的列表导入到语义目录中，这样，我们就可以看到这个数据集的层次结构被很好地编入到像Collibra这样的数据治理环境中。下面是一个例子：挑战如上所示，虚拟主机，我们看到两个表及其列的摄取。然而，下一步是什么？我们需要回答的一些问题是：每一列的意思是什么？它们代表什么？一个栏目在其他栏目的形成中扮演什么角色？例如，该列是报表中度量计算的一部分吗？哪些列表示关键业务元素，如指标、KPI或主数据属性？以上问题只是本课程的开始，还有很多问题需要考虑：从源到目标的转换血统权威源与包含此值的另一个数据库信任级别，表示应用和测量数据质量规则数据质量规则与资产及其业务规则和策略的层次结构相关相关流程和业务单元管家和责任方但是让我们从上面的三个重要问题开始，这些问题涉及到血统的第一行。从导入技术元数据开始比较容易。只要扫描一下数据库，把它们都带来。不需要业务模型或本体论，也不要求业务人员设计任何东西。但那又怎样？你怎么知道这个列存储了一个客户ID？另外，您如何知道这个客户ID是否是主属性？此外，它如何翻译成任何用户都能理解的商业词汇？是客户服务中心的身份证吗？建议的解决方案有两种方法可以理解数据的含义。让我们详细看看每一个：用户输入用户输入是第一步。用户可以在接收数据时指示以下某些权限：正在摄取的架构或表的上下文。例如，它是关于服务中心或来自主数据数据库的客户数据。人工智能我们可以尝试自动化技术元数据与业务数据的关联。有几种方法可以做到：该工具可以读取表列，并且基于表列的名称，您可以标识与业务字的紧密连接，该业务字可能表示列中数据的含义。dba可以使用英文全名或名称组合来命名列。例如：CUSTOMER_ID。在这种情况下，解析器将删除下划线，并返回两个单词：CUSTOMER ID。这本身就是一组英语单词，返利联盟，可以用于商业术语。有时，这些英语单词会被删去元音或在某个地方删掉。如果单词在中间的某个地方被截断，例如CUST_ID，那么我们可以使用前缀匹配算法，比如"trie"。"trie"将试图从精简版中找到可能的英语单词。简化方法是使用确定性非循环有限状态自动机（DAFSA），它比trie占用更少的空间。如果列的名称不是英语单词的前缀，而是不同的变体，例如，它是通过删除元音和插入特殊字符来实现的，那么我们可以索引该单词，并在单词的子集上使用"trie"算法，以得到一个建议的英语单词。例如，CUSTMR_ID可以在紧跟在元音后面的第一个非元音字符处编制索引。所以，我们可以从前缀CUS开始，然后使用上面的trie方法来建议其余的。但是，如果情况不像去掉元音那么简单，我们希望单词的任何子序列都与单词匹配，大数据下载，那么这是一个更复杂的问题，我们需要使用最长公共序列度量（LCS）来匹配单词。使用LCS，我们可以定义作为列名的字符串是否具有与字典中的英语单词相同的字符序列。这些算法非常复杂且耗时。我们还可以通过分析数据来查看表列的内容，从而改进表列名与业务术语之间的关联的建议。通过这种方式，我们可以为建议的业务名称/术语分配概率，这可以通过解析和分析列内容来实现。例如，如果表列的内容是一个整数，并且建议名称是CUSTOMER ID，那么我们的业务术语建议成功的概率就更高。另外，通过查看表列内容的可能模式，我们可以进一步增强我们的建议。例如，在表列的内容中使用模式搜索算法，淘客基地，我们可以确定列是否是电话号码（通过在内容数据抽样中标识10位数字的模式）、社会保险号码（9位数字的模式）或用于KPI的财务号码。人工智能算法有两种。文本中的自我发现模式和机器学习模式。对于机器学习，首先需要一个训练集来开始训练程序，使其了解从输入的数据中应该得到什么。使用模式发现方法，不需要训练集就可以开始工作。在解析表的内容和查找模式的情况下，第一步是使用数据挖掘算法。它们不需要训练集，但实现起来更昂贵，因为它们需要更多递归传递内容和更多资源。结论人工智能提供了一系列惊人的算法和方法来帮助我们自动匹配资产的技术名称与业务术语和概念。然而，要实现这一目标，需要一种循序渐进的方法。另外，有些方法可能非常复杂。大多数情况下，输出应该由业务用户确认。始终需要业务管理员来验证基于技术数据模型的业务模型设计的自动化工作。从技术模型中自动产生的工作当然是非常有帮助的，但在人为因素改进之前，它永远不会是最终的。

本文地址： /cunchu/36876.html