教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

什么是HDFS?HDFS的起源發(fā)展與應(yīng)用場景

更新時間:2023年07月04日16時53分 來源:傳智教育 瀏覽次數(shù):

HDFS是什么

HDFS(Hadoop Distributed File System ),意為:Hadoop分布式文件系統(tǒng)。 是Apache Hadoop核心組件之一,HDFS是一種能夠在普通硬件上運行的分布式文件系統(tǒng),它是高度容錯的,適應(yīng)于具有大數(shù)據(jù)集的應(yīng)用程序,它非常適于存儲大型數(shù)據(jù) (比如 TB 和 PB)。 HDFS使用多臺計算機存儲文件, 并且提供統(tǒng)一的訪問接口, 像是訪問一個普通文件系統(tǒng)一樣使用分布式文件系統(tǒng)。

HDFS分布式儲存系統(tǒng)

2003年的時候, Google 發(fā)表的論文為該問題提供了可行的解決方案?!斗植际轿募到y(tǒng)(GFS),可用于處理海量網(wǎng)頁的存儲》。Nutch的開發(fā)人員完成了相應(yīng)的開源實現(xiàn)HDFS,并從Nutch中剝離和MapReduce成為獨立項目HADOOP。

中文版

HDFS設(shè)計目標(biāo)

硬件故障(Hardware Failure)是常態(tài), HDFS可能有成百上千的服務(wù)器組成,每一個組件都有可能出現(xiàn)故障。因此故障檢測和自動快速恢復(fù)是HDFS的核心架構(gòu)目標(biāo)。HDFS上的應(yīng)用主要是以流式讀取數(shù)據(jù)(Streaming Data Access)。HDFS被設(shè)計成用于批處理,而不是用戶交互式的。相較于數(shù)據(jù)訪問的反應(yīng)時間,更注重數(shù)據(jù)訪問的高吞吐量。

典型的HDFS文件大小是GB到TB的級別。所以,HDFS被調(diào)整成支持大文件(Large Data Sets)。它應(yīng)該提供很高的聚合數(shù)據(jù)帶寬,一個集群中支持?jǐn)?shù)百個節(jié)點,一個集群中還應(yīng)該支持千萬級別的文件。

大部分HDFS應(yīng)用對文件要求的是write-one-read-many訪問模型。一個文件一旦創(chuàng)建、寫入、關(guān)閉之后就不需要修改了。這一假設(shè)簡化了數(shù)據(jù)一致性問題,使高吞吐量的數(shù)據(jù)訪問成為可能。

移動計算的代價比之移動數(shù)據(jù)的代價低。一個應(yīng)用請求的計算,離它操作的數(shù)據(jù)越近就越高效。將計算移動到數(shù)據(jù)附近,比之將數(shù)據(jù)移動到應(yīng)用所在顯然更好。

HDFS被設(shè)計為可從一個平臺輕松移植到另一個平臺。這有助于將HDFS廣泛用作大量應(yīng)用程序的首選平臺。

HDFS存儲非常大的文件,比如成百上千MB、GB,甚至TB級別的文件, 一次寫入多次讀取,可以做到低成本部署,可以運行在廉價PC設(shè)備上,不需要特別高的配置。

HDFS應(yīng)用場景

HDFS存儲非常大的文件,比如成百上千MB、GB,甚至TB級別的文件, 一次寫入多次讀取,可以做到低成本部署,可以運行在廉價PC設(shè)備上,不需要特別高的配置。

但不適合大量小文件,不支持頻繁任意修改。延時要求在毫秒級別的應(yīng)用,不適合采用 HDFS,HDFS是為高吞吐數(shù)據(jù)傳輸設(shè)計的,延時較高。

HDFS應(yīng)用場景

0 分享到:
和我們在線交談!