云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

企业网站_三级片百度云_免费申请

小七 141 0

域名交易_阿里云盘福利码4.27_便宜的

这篇博文是"我的Hadoop学习之旅"系列的一部分。在这篇博文中,我将关注

什么是大数据?为什么Hadoop会出现?

"一幅画抵得上千言万语"——记住这一点,我试着用更少的文字和更多的图像来解释。让我在评论中知道这是否有用

来自世界各地的数据例如

在Facebook上的最后10-15分钟内,折扣返利,你会看到数以百万计的链接共享、活动邀请、好友请求、上传的照片和评论在过去的几个小时里,通过Twitter feed生成了数兆字节的数据消费品公司和零售组织正在监控Facebook和Twitter等社交媒体,以获得对客户行为、偏好和产品感知的前所未有的了解来自移动设备的GPS数据网络日志、电子邮件文本、电子邮件附件用于收集气候信息的传感器发布到社交媒体网站,采购交易记录和更多

所有这些共同构成大数据。

大量结构化和非结构化数据的集合,这些数据可以被捕获、存储、聚合、分析和交流,以做出更好的业务决策,称为大数据。

数量是指数据量

可用数据的大小是如今正以指数级增长。一个文本文件只有几千字节,一个声音文件只有几兆字节,而一部完整的电影只有几千兆字节。

更多的数据源正在不断增加。对于企业来说,拥有TB和PB级的存储系统是非常常见的。随着数据库的增长,为支持数据而构建的应用程序和体系结构需要经常更改。

速度指的是数据处理的速度

数据增长和社交媒体爆炸改变了我们对数据的看法。最初,公司使用批处理过程分析数据。一个获取一块数据,向服务器提交一个作业并等待输出。当传入的数据速率较慢时,这个过程就起作用了。

随着社交和移动应用程序等新的数据源的出现,批处理过程中断。今天,人们在社交媒体上回复最新消息。在社交媒体上,自助建站源码,有时几秒钟前的信息(tweet、状态更新等)并不是用户感兴趣的东西。他们经常丢弃旧消息并关注最近的更新。数据移动现在几乎是实时的,更新窗口已减少到几秒钟的分数。

变化是指数据类型的数量

来自excel表格和数据库,数据结构已更改为失去其结构,并添加数百种格式。纯文本、照片、音频、视频、web、GPS数据、传感器数据、关系数据库、文档、SMS、pdf、flash等

现在我们不再控制输入数据格式。结构不能再像过去那样被强加来控制分析。随着新应用程序的引入,新的数据格式应运而生。现实世界中有许多不同格式的数据,这是我们需要用大数据来克服的挑战。

现在让我们看看为什么我们需要Hadoop来处理大数据。

Hadoop从分布式关系数据库结束的地方开始。

如果关系数据库可以解决您的问题,那么您可以使用它,但是有了大数据的起源,带来了传统数据库系统无法完全解决的新挑战,

让我们更详细地了解这些挑战,

传统数据库管理系统处理大数据的挑战

挑战1:

大数据除了关系数据库能够处理的结构化数据外,还有各种各样的数据手段大数据还包括非结构化数据(文本、日志、音频、流、视频流、传感器、GPS数据)。传统的数据库需要预先创建数据库模式来定义数据的外观,云服务器和普通服务器,数据与大数据,这使得处理大型非结构化数据变得更加困难。传统数据库的设计不能够处理支持大数据到达或需要分析的速度所需的数据库插入/更新速率。

挑战3:

大数据是以Zettabytes为单位的数据,以指数速率增长。如果要处理的数据是TB和PB级的,则更适合在并行独立任务中处理它们,并整理结果以给出输出。传统的数据库方法无法解决这个问题

为了应对这些挑战,一个新的框架应运而生,Hadoop.

Hadoop是一个以分布式方式处理大量结构化和非结构化数据的框架。

要知道Hadoop并不是传统数据库的替代品,这一点非常重要。

与RDBMS不同,在RDBMS中,您可以实时查询,Hadoop过程需要时间,不会立即产生结果。Hadoop是一个计算架构,智能物联,而不是一个数据库。