云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

金山云_美国he服务器_免费

小七 141 0

云计算数据中心_怎么选择_人工智能有哪些公司

任何一个长期关注大数据的人都可能已经过度暴露于"数据湖vs.数据沼泽"的比喻。这个类比假设"湖"比"沼泽"更整洁、更有序,但湖泊看起来更有序的唯一原因是,所有物理形态和生物的复杂性都在水面以下,自建站平台,而在沼泽中,这些复杂性会暴露出来,让所有人都看得见。事实证明,细节的可见性是数据湖管理的主要问题之一。大量的数据和重复版本的数据使得无法从数据的结构特征中准确地识别出正确的数据。而不同业务部门之间的命名方式意味着用户添加的信息在没有通用的参考数据和语义协议的情况下可能会被误解。但是,由于数据湖的经济性是如此引人注目,组织往往开始将数据放入湖中,而没有关于当前存在什么的明确信息。这会产生两个结果:湖中的数据实际上只对那些已经知道它是什么和它意味着什么的人有用。如果一组不同的用户可以访问相同的数据,他们将创建一个复制副本并用他们自己的术语标记它。结果是,湖泊变成了一个孤岛环境,基础设施的共同性不会导致任何信息共享。事实上,由于附加存储成本较低,它实际上可以增加拷贝数。没有足够的信息,很难区分湖中的数据。与其说它是一个沼泽,不如说是一个泥坑。一切看起来都一样,你无法分辨好坏。清理湖泊并不是要让它看起来更加有序和平静,而是让你能看到湖里所有的特征——更像是沼泽。当然,我们不能回到模型中,在这个模型中,所有的东西都必须在被提供之前被完整地描述,就像许多数据仓库的情况一样(我们都知道这个故事是如何结束的)。相反,大数据信息,在初始注册期间收集元数据并在人们使用数据时不断收集更多信息的过程是确保灵活性和捕捉重用和共享机会的最佳方法。这种方法还可以确保了解数据的人(因为他们产生和使用数据)是描述和记录有关数据的信息的人。人们愿意这样做是因为他们看到了它的价值,因为有了这些信息,也更容易找到和使用湖中的数据。因此,数据呈现,这是一个公平的交换:你对数据的了解以及你将如何使用它,企业交流软件,这是目前唯一可以自然扩展的可行方法。许多技术有望解决数据沼泽问题。虽然它们确实解决了问题的各个方面,但主要的挑战是确保数据集可以被看到,而不是隐藏在看似平静的表面之下,组织必须使他们的数据在湖中可见,并将查找数据的过程(通过数据目录)与收集有关数据的信息的过程联系起来。如果没有这种联系,数据湖可能看起来很平静,但它将只是一个没有特色的广阔区域,而不是丰富多样的景观。

,云商城