hadoop是什么?
2023-03-23 14:09:29 閱讀(110)
hadoop應歷史之潮流,隨著理論探索、科學技術試驗的不斷開展,hadoop終于2006年問世,驚天地泣鬼神!
hadoop雛形開始于2002年的Apache的Nutch,Nutch是一個開源Java實現的搜索引擎。它提供了運行搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
在2003年Google發(fā)表了一篇技術學術論文谷歌文件系統(tǒng)(GFS)。GFS也就是google File System,是google公司為了存儲海量搜索數據而設計的專用文件系統(tǒng)。
2004年Nutch創(chuàng)始人Doug Cutting基于Google的GFS論文實現了分布式文件存儲系統(tǒng)名為NDFS。
2004年Google又發(fā)表了一篇技術學術論文MapReduce。MapReduce是一種編程模型,用于大規(guī)模數據集(大于1TB)的并行分析運算。
2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎實現了該功能。
2006年,Yahoo雇用了Doug Cutting,Doug Cutting將NDFS和MapReduce升級命名為Hadoop,Yahoo創(chuàng)建了一個獨立的團隊給Goug Cutting專門研究發(fā)展Hadoop。不得不說Google和Yahoo對Hadoop的貢獻功不可沒。
簡單地說來,Hadoop是一個可以更容易開發(fā)和運行處理大規(guī)模數據的軟件平臺。其核心是HDFS和MapReduce。
HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng)),它是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,適合那些有著超大數據集(large data set)的應用程序,一句話來概括的話:HDFS更加利于大量數據(一般在TB級別)的存取。MapReduce是一套從海量源數據提取分析元素最后返回結果集的編程模型,將文件分布式存儲到硬盤是第一步,而從海量數據中提取分析我們需要的內容就是MapReduce做的事了,一句話來概括為:MapReduce方便大量數據的計算。
關于大數據的意義和價值,我認為最精煉的一句話總結:大數據可以直抵事件真相!互聯(lián)網時代數據量逐漸增大,據說百度一天的搜索頁面量都在TB級別。之前的Apache架構,雖然能夠對數據進行計算和存儲,但是遠遠不能滿足現代量級,因此開發(fā)新的專門針對大數據處理的技術十分必要,這也是大數據相關技術,包括spark、hadoop等出現的背景條件。
hadoop技術發(fā)展到一定程度,可以建立立體化的分析系統(tǒng),其對象可以為消費者或者網站或者app,能夠多角度全方位的分析大量數據,從而得出關于對象的事件真相,可以舉一個例子解釋它的具體表現:未來,可能消費者不知道自己喜歡什么,但是大數據能夠通過他的歷史行為,告訴他應該喜歡什么。