新聞中心
hadoop的發(fā)展及原理?
Hadoop的發(fā)展歷史

2004年— 最初的版本(現(xiàn)在稱為HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實(shí)施。
2005年12月— Nutch移植到新的框架,Hadoop在20個(gè)節(jié)點(diǎn)上穩(wěn)定運(yùn)行。
2006年1月— Doug Cutting加入雅虎。
2006年2月— Apache Hadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS的獨(dú)立發(fā)展。
2006年2月— 雅虎的網(wǎng)格計(jì)算團(tuán)隊(duì)采用Hadoop。
2006年4月— 標(biāo)準(zhǔn)排序(10 GB每個(gè)節(jié)點(diǎn))在188個(gè)節(jié)點(diǎn)上運(yùn)行47.9個(gè)小時(shí)。
…………
Hadoop的工作原理是:
Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System(HDFS),它存儲(chǔ) Hadoop 集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件。HDFS(對(duì)于本文)的上一層是MapReduce 引擎,該引擎由 JobTrackers 和 TaskTrackers 組成?!?/p>
Hadoop生態(tài)系統(tǒng)及各模塊的功能?
HDFS 是 Hadoop 生態(tài)圈中提供分布式存儲(chǔ)支持的系統(tǒng),上層的很多計(jì)算框架(Hbase、Spark 等)都依賴于 HDFS 存儲(chǔ)。
2. MapReduce(分布式計(jì)算模型)離線計(jì)算
何為離線計(jì)算,其實(shí)就是非實(shí)時(shí)計(jì)算。
3. Yarn(分布式資源管理器)
Yarn 的出現(xiàn)主要就是為了解決原始 Hadoop 擴(kuò)展性較差、不支持多種計(jì)算模型的問題。
4. Spark(內(nèi)存計(jì)算)
Spark 提供了內(nèi)存中的分布式計(jì)算能力,相比傳統(tǒng)的 MapReduce 大數(shù)據(jù)分析效率更高、運(yùn)行速度更快。
5. HBase(分布式列存儲(chǔ)數(shù)據(jù)庫)
Hbase繼承了列存儲(chǔ)的特性,它非常適合需對(duì)數(shù)據(jù)進(jìn)行隨機(jī)讀、寫操作。 其次,Hbase構(gòu)建在HDFS之上,其內(nèi)部管理的文件全部存儲(chǔ)在HDFS中。這使它具有高度容錯(cuò)性和可擴(kuò)展性,并支持Hadoop mapreduce程序設(shè)計(jì)模型。
6. Hive(數(shù)據(jù)倉庫)
Hadoop大數(shù)據(jù)框架的發(fā)展歷程?
· 2008年1月,Hadoop成為Apache頂級(jí)項(xiàng)目。
· 2008年6月,Hadoop的第一個(gè)SQL框架——Hive成為了Hadoop的子項(xiàng)目。
· 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成為Hadoop項(xiàng)目的獨(dú)立子項(xiàng)目。
· 2009年7月 ,Avro 和 Chukwa 成為Hadoop新的子項(xiàng)目。
· 2010年5月 ,Avro脫離Hadoop項(xiàng)目,成為Apache頂級(jí)項(xiàng)目。
· 2010年5月 ,HBase脫離Hadoop項(xiàng)目,成為Apache頂級(jí)項(xiàng)目。
· 2010年9月,Hive脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。
· 2010年9月,Pig脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。
· 2010年-2011年,擴(kuò)大的Hadoop社區(qū)忙于建立大量的新組件(Crunch,Sqoop,F(xiàn)lume,Oozie等)來擴(kuò)展Hadoop的使用場景和可用性。
· 2011年1月,ZooKeeper 脫離Hadoop,成為Apache頂級(jí)項(xiàng)目。
到此,以上就是小編對(duì)于的問題就介紹到這了,希望這3點(diǎn)解答對(duì)大家有用。
分享題目:hadoop的發(fā)展及原理?windows10hadoop
本文路徑:http://m.fisionsoft.com.cn/article/djsodjj.html


咨詢
建站咨詢
