云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

分布式存储_西蔵自治区建设厅网站_高性价比

小七 141 0

分布式存储_西蔵自治区建设厅网站_高性价比

每一个英雄的诞生背后都有一个有趣的故事。

无论是蜘蛛的叮咬、伽马射线的照射,还是在粒子加速器爆炸时在化学实验室被闪电击中!!总有一个"起源"的故事。我们的英雄也不例外……

我们故事中的英雄,HADOOP,在他出生的背后也有一个非常引人入胜的故事。

在事情变得严重之前,让我和大家分享这个故事。

1997年,Douglas Cutting,更被称为"HADOOP之父",开始了他关于一个新的搜索索引器"Lucene"的工作。在创建Lucene之前,Doug曾在许多搜索技术建设者中担任职位,如"Excite"、"Apple Inc"和"Xerox PARC"。Lucene现在是Apache软件基金会的一个项目,它是一个全文搜索库,用于在普通文本上建立索引和反向索引,以加快搜索速度。用外行的话来说,正是它让谷歌在启动搜索查询后的几毫秒内返回结果。

在一个相当平静的开始之后,Lucene直到2001年底才获得动力。一旦Apache-Lucene社区开始蓬勃发展,Doug和来自华盛顿大学的研究生Mike Cafarella就开始了他们的探索,通过索引网页使整个互联网"可搜索"。这就产生了一个新的Lucene子项目,泛在电力物联网,称为ApacheNutch.

Nutch是一个网络爬虫,即通过跟踪网页之间的URL来"爬网"网页的程序。然后,返利宝,Nutch使用Lucene对网页内容进行索引,使其"可搜索"。很快,Nutch能够在一台机器上部署时每秒索引100个网页。

就像每一个开始试点或概念验证工作的开发人员一样,在Mike和Doug的初始项目版本中,大数据是数据,没有真正关注性能和可伸缩性等非功能性方面。很快,很明显,用一台机器索引整个互联网几乎是不可能的。所以,他们把机器的数量增加到了四台。但是,这带来了管理机器之间的通信和数据交换以及其他操作方面的复杂性。

很快,很明显需要一个分布式存储层,它是开放的、可扩展的、持久的,能够自动处理所有操作方面。Mike和Doug开始工作,以实现这样的系统。与此同时,谷歌在2003年发表了一份关于谷歌文件系统(GFS)的白皮书,该白皮书已经为道格和迈克面临的许多问题提供了答案,尝试缩放Nutch.

谷歌文件系统白皮书:

抓住这个机会,他们很快在Google文件系统白皮书的基础上用Java实现了一个文件系统,并命名为NDFS,"Nutch Distributed File system"。它被设计成一个分布式的、可靠的文件系统,可以对用户隐藏所有的操作复杂性,并使用廉价的、商品化的硬件提供一致的、持久的和容错的存储

2006年,NDFS从Nutch的保护伞转移到一个新的Apache孵化器项目——"Hadoop"。(由Hadoop commons、HDFS和MapReduce组成)。

你为什么说"Hadoop"??这个名字背后也有一个有趣的故事!

道格两岁的儿子刚学会说话,就给他心爱的软玩具黄象取名为"Hadoop"。道格觉得这个名字可以成为未来软件项目的一个很好的品牌,并一直在为合适的时间保存它。

"软件的命名规则是它们毫无意义,因为有时某个特定软件的使用会发生漂移,如果你的名字与之联系太密切,优惠券返利,Cutting在一次采访中说:

一个好的软件名称应该容易记住,缺乏非常具体的联系,并且必须能够承受软件发展方向的变化。所以,当Doug为他的新Apache孵化器项目寻找一个名字时,"Hadoop"是一个明确的选择。

今天,Hadoop——这个玩具退休了,住在Cutting的袜子抽屉里,只是偶尔在会议上,Doug在演讲和主题演讲中使用黄色大象时才放出来。

顺便说一句,这不是道格第一次选择离家这么近的东西来命名他的软件。他的搜索索引器"Lucene"的名字来源于他妻子的中间名和她祖母的名字Lucene!!

切割说:"我喜欢有愚蠢的根。你想保持一些乐趣和轻浮在东西。它太容易变得太严肃,尤其是当你谈论企业业务软件时。它让从事这项工作的人觉得他们有点乐趣。"

随着谷歌作为首选搜索引擎的飞速发展,雅虎面临着严重的问题,正在考虑实施Hadoop。2006年,Doug加入了Yahoo,帮助以ericbaldeschwieler为首的团队完成Hadoop的转型。这个决定后来挽救了我们的生命雅虎.Hadoop有助于产生新的想法,在整个公司产生新的产品。

很快生态系统开始开花,许多项目,如"HBase","Zookeeper"正在形成。Facebook增加了他们对Hadoop之上基于SQL的数据仓库Hive的贡献。雅虎自己提出了一个名为"Pig"的项目来简化与MapReduce的工作。我们将在即将发布的博客中详细介绍所有这些组件。

2008年,"Cloudera"由BerkeleyDB guy Mike Olson、Google的Christophe Bisciglia、Facebook的Jeff Hammerbacher和Yahoo!的Amr Awadallah创建!。2009年,Doug Cutting离开Yahoo,到Cloudera工作,担任首席架构师一职,直到目前为止。