云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

金山云_网站首页建设_返利

小七 141 0

你的数据湖像巴别塔图书馆吗?

1941年,阿根廷著名作家豪尔赫·路易斯·博尔赫斯(Jorge Luis Borges)发表了一篇短篇小说《巴别塔图书馆》(The Library of Babel),故事讲述了一个由难以想象的六边形房间组成的宇宙故事,每一个房间都存放着人类赖以生存的必需品和四壁书架。尽管这些书的顺序和内容都是武断的,似乎完全没有意义,但居民们认为,这些书包含了25个基本字符(22个字母、句点、逗号和空格)的所有可能的顺序。想象一下会有多少本书!有些书纯粹是胡言乱语,而另一些则是高度相关和有用的。后者可以描述对未来的预测和任何人的传记,包括稍有不同或错误的版本以及所有语言的翻译。当然,一个进入图书馆的读者会发现大量的书无法管理。这纯粹是信息过剩,无法区分有意义的书和无用的书。但随着故事的发展,图书管理员开始自己动手。在绝望地试图弄清楚现有的一连串信息时,他们采取了极端的行为。有些人变成了"净化者",图书管理员任意地清洗他们认为是无稽之谈的书籍。他们定义了什么是好的,什么是不好的标准,几乎没有其他人的投入。与此相反,另一些人则认为,在茫茫混乱的世界中,有一本书将图书馆的所有内容编入目录。一个"书中人"发现并阅读了这个索引,并将其翻译成对进入图书馆的人有用的东西。显然,这个索引对试图查找或理解图书馆内容的人是有帮助的。在这两种情况下,目标都是为了控制图书馆和图书馆内的大量书籍,以便读者能够找到他们需要的东西。但是,这些方法确实非常不同。现在,你可能想知道"巴别塔图书馆"和数据有什么关系。好吧,这些相似之处实际上相当惊人。想想你的数据湖。从理论上讲,它包含了组织中几乎所有的数据。有些数据是有意义的,可以理解的,值得信任的。其他数据是胡言乱语,因为它缺乏意义和信任。这两种类型的数据一起生活在数据湖中,区分好坏并不是一件简单的任务。此外,组织还必须向外看,因为还有更多的六边形空间需要通过。市场研究公司IDC预测,"数字世界"(每年创建和复制的数据)将在2025年达到180兆字节(即180兆字节后接21个零)(见图表)。通过一个宽带互联网连接把它全部抽干需要4.5亿年的时间。(《经济学人》一段)。事实上,我相信真正的大数据时代还在后面。此外,数据质量也发生了变化。它们不再是结构化信息块,包括数据库、数据仓库和其他定义良好的主客户记录,包括年龄、性别和家庭地址。它更多的是寻找和快速理解实时数据流:社交媒体更新、公共交通活动、喷气发动机和公共场所中的数百个传感器。现在想想组织中管理和使用数据的人。当然也有"净化者"——那些随意清理数据以控制湖中存在的数据混乱的人。他们是数据权威,决定哪些数据是正确的,哪些数据是错误的。他们定义自己的质量标准,而不与整个企业的其他人接触。当数据不符合要求时,他们拒绝妥协。就像博尔赫斯故事中的"净化者",他们清除被认为不值得的数据。对我来说,他们不是管理您数据的最佳人选。为什么?因为即使他们的意图是纯粹的,他们也缺乏合作。这就意味着其他人对哪些数据保留哪些数据没有发言权。而且,净化器排出的数据可能是对某个业务领域至关重要的数据。还有一些管理数据的人本质上是协作性的,即拥有数据公民身份的人。他们认为,通过在整个组织内合作来理解数据的含义和用途,有可能掌握数据。这些人相信在数据进入数据湖之前,有一种方法可以控制数据。他们提倡定义数据进入数据湖的规则和操作模型。他们努力工作,以便所有用户都能找到数据,理解数据的含义,并相信数据是正确的。他们正在寻找神话中的"书中人",这样他们也可以发现隐藏在数据湖深处的所有数据的索引。在数据的世界里,我们知道不存在这样的书,也不存在"书中人"。然而,许多组织正在使用一个数据目录来帮助他们控制被塞进数据池中的过剩信息。数据目录帮助组织索引数据,并将其链接到关于质量、可信度和使用的商定定义。它帮助用户确定哪些数据适合使用,哪些数据应该丢弃,因为这些数据不完整或与手头的分析无关。它提供了当"净化器"控制时所缺乏的协作。它帮助所有数据用户找到、理解和信任他们的数据。你如何管理你的数据湖?用"净化器"还是"书中人"