教育行業(yè)A股IPO第一股(股票代碼 003032)

全國(guó)咨詢/投訴熱線:400-618-4000

ReduceTask工作機(jī)制:ReduceTask工作的5階段

更新時(shí)間:2021年12月06日16時(shí)51分 來源:傳智教育 瀏覽次數(shù):

ReduceTask的工作過程主要經(jīng)歷了5個(gè)階段,分別是Copy階段、Merge階段、Sort階段、Reduce階段和Write階段,如下圖所示。

ReduceTask

下面針對(duì)ReduceTask工作過程的5個(gè)階段進(jìn)行介紹:

(1) Copy階段:Reduce會(huì)從各個(gè)MapTask上遠(yuǎn)程復(fù)制一片數(shù)據(jù),并針對(duì)某一片數(shù)據(jù),如果其大小超過一定閾值,則寫到磁盤上,否則直接放到內(nèi)存中。

(2) Merge階段:在遠(yuǎn)程復(fù)制數(shù)據(jù)的同時(shí),ReduceTask會(huì)啟動(dòng)兩個(gè)后臺(tái)線程,分別對(duì)內(nèi)存和磁盤上的文件進(jìn)行合并,以防止內(nèi)存使用過多或者磁盤文件過多。

(3) Sort階段:用戶編寫reduce()方法輸人數(shù)據(jù)是按key進(jìn)行聚集的一組數(shù)據(jù)。為了將key相同的數(shù)據(jù)聚在一起,Hadoop采用了基于排序的策略。由于各個(gè)MapTask已經(jīng)實(shí)現(xiàn)對(duì)自己的處理結(jié)果進(jìn)行了局部排序,因此,ReduceTask只需對(duì)所有數(shù)據(jù)進(jìn)行一次歸并排序即可。

(4) Reduce階段:對(duì)排序后的鍵值對(duì)調(diào)用reduce()方法,鍵相等的鍵值對(duì)調(diào)用一次reduce()方法,每次調(diào)用會(huì)產(chǎn)生零個(gè)或者多個(gè)鍵值對(duì),最后把這些輸出的鍵值對(duì)寫人到HDFS中。

(5) Write階段: reduce()函數(shù)將計(jì)算結(jié)果寫到HDFS上。



猜你喜歡:

MapReduce核心思想【圖文介紹】

MapReduce程序怎樣設(shè)置本地運(yùn)行模式?

如何操作MapReduce的性能調(diào)優(yōu)?

傳智教育python+大數(shù)據(jù)開發(fā)課程

0 分享到:
和我們?cè)诰€交談!