永久免费av无码网站韩国毛片,美女自卫慰黄网站免费

現(xiàn)在位置：主頁(yè) > 熱文 > 【大數(shù)據(jù)知識(shí)】MapReduce運(yùn)行流程

【大數(shù)據(jù)知識(shí)】MapReduce運(yùn)行流程

作者：編輯 ? 時(shí)間：2018-11-25 ? 瀏覽：人次

MapReduce運(yùn)行流程

以wordcount為例，運(yùn)行的詳細(xì)流程圖如下

1.split階段

首先mapreduce會(huì)根據(jù)要運(yùn)行的大文件來(lái)進(jìn)行split，每個(gè)輸入分片(input split)針對(duì)一個(gè)map任務(wù)，輸入分片(input split)存儲(chǔ)的并非數(shù)據(jù)本身，而是一個(gè)分片長(zhǎng)度和一個(gè)記錄數(shù)據(jù)位置的數(shù)組。輸入分片(input split)往往和HDFS的block(塊)關(guān)系很密切，假如我們?cè)O(shè)定HDFS的塊的大小是64MB，我們運(yùn)行的大文件是64x10M，mapreduce會(huì)分為10個(gè)map任務(wù)，每個(gè)map任務(wù)都存在于它所要計(jì)算的block(塊)的DataNode上。

2.map階段

map階段就是程序員編寫的map函數(shù)了，因此map函數(shù)效率相對(duì)好控制，而且一般map操作都是本地化操作也就是在數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)上進(jìn)行。本例的map函數(shù)如下：

publicclassWCMapperextendsMapperLongWritable,Text,Text,IntWritable{@Override
protectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{
Stringstr=value.toString();
String[]strs=StringUtils.split(str,'');for(Strings:strs){
context.write(newText(s),newIntWritable(1));
}
}
}

根據(jù)空格切分單詞，計(jì)數(shù)為1，生成key為單詞，value為出現(xiàn)1次的map供后續(xù)計(jì)算。

3.shuffle階段

shuffle階段主要負(fù)責(zé)將map端生成的數(shù)據(jù)傳遞給reduce端，因此shuffle分為在map端的過(guò)程和在reduce端的執(zhí)行過(guò)程。

先看map端：

map首先進(jìn)行數(shù)據(jù)結(jié)果數(shù)據(jù)屬于哪個(gè)partition的判斷，其中一個(gè)partition對(duì)應(yīng)一個(gè)reduce，一般通過(guò)key.hash()%reduce個(gè)數(shù)來(lái)實(shí)現(xiàn)。
把map數(shù)據(jù)寫入到Memory Buffer(內(nèi)存緩沖區(qū))，到達(dá)80%閥值，開啟溢寫進(jìn)磁盤過(guò)程，同時(shí)進(jìn)行key排序，如果有combiner步驟，則會(huì)對(duì)相同的key做歸并處理，最終多個(gè)溢寫文件合并為一個(gè)文件。

reduce端：

reduce節(jié)點(diǎn)從各個(gè)map節(jié)點(diǎn)拉取存在磁盤上的數(shù)據(jù)放到Memory Buffer(內(nèi)存緩沖區(qū))，同理將各個(gè)map的數(shù)據(jù)進(jìn)行合并并存到磁盤，最終磁盤的數(shù)據(jù)和緩沖區(qū)剩下的20%合并傳給reduce階段。

4.reduce階段

reduce對(duì)shuffle階段傳來(lái)的數(shù)據(jù)進(jìn)行最后的整理合并

publicclassWCReducerextendsReducerText,IntWritable,Text,IntWritable{@Override
protectedvoidreduce(Textkey,IterableIntWritablevalues,Contextcontext)throwsIOException,InterruptedException{intsum=0;for(IntWritablei:values){
sum+=i.get();
}
context.write(key,newIntWritable(sum));
}
}

MapReduce的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)：

易于編程;
良好的擴(kuò)展性;
高容錯(cuò)性;

4.適合PB級(jí)別以上的大數(shù)據(jù)的分布式離線批處理。

缺點(diǎn)：

難以實(shí)時(shí)計(jì)算(MapReduce處理的是存儲(chǔ)在本地磁盤上的離線數(shù)據(jù))
不能流式計(jì)算(MapReduce設(shè)計(jì)處理的數(shù)據(jù)源是靜態(tài)的)
難以DAG計(jì)算MapReduce這些并行計(jì)算大都是基于非循環(huán)的數(shù)據(jù)流模型，也就是說(shuō)，一次計(jì)算過(guò)程中，不同計(jì)算節(jié)點(diǎn)之間保持高度并行，這樣的數(shù)據(jù)流模型使得那些需要反復(fù)使用一個(gè)特定數(shù)據(jù)集的迭代算法無(wú)法高效地運(yùn)行。

轉(zhuǎn)載請(qǐng)保留原文鏈接:http://parkingblocks4less.com/a/rewen/20181125/19591.html上一篇：上一篇：【開發(fā)大數(shù)據(jù)】關(guān)于程序員的那些事兒
下一篇：下一篇：沒(méi)有了

廣州熱線

【大數(shù)據(jù)知識(shí)】MapReduce運(yùn)行流程

隨機(jī)推薦

相關(guān)文章

精彩推薦

熱門看點(diǎn) / 隨機(jī)推薦