云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

大带宽_阜阳网站建设_9元

小七 141 0

公司云服务器_表较好的_中国有物联网吗

博客如果你从事数据工作,你可能会遇到"数据湖"这个词——要么是作为数据和分析的一个普遍趋势,要么是作为你试图解决的特定大数据问题的解决方案。事实上,随着数据的惊人增长,数据湖通常被视为存储和分析大量原始数据的有吸引力的解决方案。但它是否适合贵公司?让我们试着回答这个问题,从定义开始。第一件事是第一件事:什么是数据湖?由于在这一领域存在很多混乱和不明确的地方——在2015年的一项调查中,只有1.12%的受访者认为这个概念定义得很好,而且在细节上是一致的——任何关于数据湖的讨论都必须从定义开始。首先要理解的是,"数据湖"一词通常不会用于描述特定的产品或服务,而是一种大数据体系结构的方法,可以概括为"现在存储,以后分析"。换句话说,与传统的数据仓库方法不同,云服务器多少钱,传统的数据仓库方法需要在数据被"摄取"时对其施加结构化的表格格式,我们将使用数据湖将非结构化或半结构化数据以其原始形式存储在一个为多个分析用例或服务提供服务的单一存储库中。数据湖通常用于存储由高速、大容量数据源生成的数据(如物联网、产品日志或web交互),以及当组织在如何使用数据方面需要高度灵活性时。记住这一定义,让我们继续问你需要回答的5个问题,然后再决定是否应该这样做:1您使用的是哪种类型的数据?正如我们在上一节中所述,data lakes最好用于存储流式数据,互联网大数据,它具有以下几个独特的特点:非结构化或半结构化不断地被生成,以小的爆发(例如,每次用户看到一个广告,就会生成一个包含几十个字段的新记录)通常积累得很快—数百亿条记录"重达"数百TB是流式数据的常见工作负载如果您正在处理这种类型的数据,您绝对应该考虑使用数据湖,因为构建和存储在关系数据库中的成本将很快变得非常令人望而却步。但是,如果您主要使用传统的表格信息,例如由财务、CRM或HR系统生成的数据,您可能需要坚持使用数据仓库。不管怎样,这两种方法都不是互斥的,您可以考虑在RDBMS中保留一些数据,并使用一个数据湖来存储您想分别分析的传感器或SaaS数据。然而,返利平台,云服务器一年多少钱,如果你没有任何东西,甚至与大数据或流式数据非常相似,那么数据湖可能会有点过头了。2你知道你想怎样处理这些数据吗?数据湖的一大优点是,当涉及到数据最终将如何使用时,它们提供了灵活性。在数据仓库中,我们将数据存储在最适合特定用例(如操作报告)的特定结构中;但是,提前构建数据结构的需要会带来成本,而且还会限制您在将来将相同数据重新调整用途以用于新的用例的能力。这让我们回到datalakes的核心原则:现在存储,稍后分析。如果您还不确定是否要启动一个机器学习项目,或者希望为将来的BI分析提供更高级别的灵活性,那么数据湖可能是一个不错的选择。但是,如果您只想生成一些预定义的报告,返利平台,那么数据仓库可能会更快地到达目的地。三。您的数据采集过程有多复杂?向数据仓库添加新源通常是一个资源密集型过程。如果您不断地获取新数据,特别是从非结构化或半结构化源获取新数据,您可能会很快发现自己在处理严重的ETL开销,以便将这些数据"塞进"到数据仓库可以使用的格式中。如果您要考虑将所有数据存储到lake中的开销降到最低,特别是考虑将数据存储到lake中的成本降到最低,然后提取并转换数据,当您想实际使用它时。4您的组织中存在哪些类型的工具和技能?构建和维护数据湖与使用数据库不同。如果后者需要一定级别的DBA/IT来维护基础设施,而其余部分则由业务用户(分析师或高管)处理,那么数据湖通常需要在工程方面投入更多的资金,尤其是对需求量大、难以找到的大数据工程师。如果您的组织中没有这些技能,那么向数据湖方法过渡可能会很困难。在这种情况下,您应该考虑坚持使用您的数据仓库,直到您成功地聘用到先决条件的工程人才;或者使用像Upsolver这样的数据湖平台(为了充分披露,我是首席执行官和联合创始人)来简化云数据湖的构建和管理过程,并消除投入大量资金的需要工程资源部。5您的数据管理和治理策略是什么?在治理方面,数据湖和数据仓库都带来了挑战。在数据仓库中,这一挑战将是需要不断维护和管理所有传入的数据,并确保它们是根据一致的业务逻辑和数据模型添加的;而数据湖经常被批评为混乱,无法有效管理。无论你选择哪种方法,确保你有一个好的方法来应对这些挑战。你准备好进入数据湖了吗?这是陈词滥调,但确实没有"一刀切"的数据。每个组织甚至每个项目都是独一无二的,需要以开放的心态和对不断发展的技术环境的良好理解来对待。您可以使用我们上面提出的五个问题作为一个总体指导,来决定您的公司或组织是否应该认真考虑构建数据湖。如果你想读一个成功的公司的例子,看看这个案例研究。关于作者orirafael是Upsolver的首席执行官,Upsolver为aws3提供了领先的数据湖平台。Ori热衷于使技术对人和组织有用,并曾担任IDF精英技术部门的数据集成平台负责人,以及私营部门的高级管理职位。大数据仓库标签