免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

MapReduce流程有哪些

本篇內容介紹了“MapReduce流程有哪些”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

成都創新互聯主要從事成都網站制作、做網站、網頁設計、企業做網站、公司建網站等業務。立足成都服務普定,十年網站建設經驗,價格優惠、服務專業,歡迎來電咨詢建站服務:18980820575

MapReduce是一個基于yarn的分布式、離線、并行的計算框架,主要職責是處理海量數據集,是Hadoop生態圈中一個非常重要的一個工具,所以MapReduce是大數據學習的一個很關鍵的知識點,需要大家好好掌握!

MapReduce其中包含許多組件,但最主要的還是Job提交和Map、Reduce的全流程這兩個部分,學習中只要把握好這兩條主線理清楚細節串成一個知識體系,那么MapReduce的學習就會得心應手了。關于Job作業的提交流程在Hadoop權威指南這本書上有相當詳細的步驟解析和圖示說明,那么這次總結主要關于MapReduce過程中海量數據是怎么被提取并在MapTask和ReduceTask中被處理,以及其中涉及運用的組件,讓我們一起來看看吧。

  MapReduce流程有哪些

上面的圖從整體上描述了整個MapRduce流程,大致分為五個步驟

  1、input(map端讀取分片數據)--->2、Map處理--->3、shuffle過程--->4、reduce處理--->5、output(reduce端輸出處理結果)現在我們一步步來分析解釋這個過程。注:MP的整個過程中數據結構為:key-value

1、  Map端讀取數據

a、在讀取之前,客戶端會對數據進行切片處理,分片機制如下,一個分片對應一個map,可調整客戶端的塊大小,minSize,maxSize改變map數量,minSize默認值是1,maxSize默認是long的最大值

b、如下圖所示,先對數據進行TextInputFormat格式化,然后lineRecordReader循環調用

nextKeyValue、getCurrentKey、getCurrentValue等方法將數據以<K,V>形式獲取到MapTask

c、切片讀取細節:每次讀取都往下多讀取一行(第一個切片);下一個切片永遠拋棄第一行;最后一個切片不能多讀一行

MapReduce流程有哪些

2、  Map處理

a、在Map端,調用我們按照業務邏輯編寫的map()方法,每一行調用一次map()方法對數據進行處理,有且僅有一次,分別在調用map方法前調用setup()方法和在在調用map方法后調用cleanup()方法

在這個階段,數據會被分解成一個個<K,V>形式的鍵值對

b、在這個階段,可以有一個combiner過程,將數據進行局部整合(當數據量太大時),combiner能調用

MapReduce流程有哪些

3、  shuffle過程:是指數據從Map端輸出到Reduce端輸入這中間對數據的操作過程(數據分區、排序、緩存)

a、輸出從map端輸出后,會進入到outputCollector,一個數據收集器,然后由數據收集器將數據傳進一個有20%保留區的環形緩沖區(一般是100M)

b、當數據在環形緩沖區溢出時,會有一個spiller溢出器,在溢出器中會將數據調用getPartition(k,v,num)方法分區,然后根據hashcode在分區內進行快速排序,之后將數據發往Reduce

4、  reduce處理

a、經過shuffle過程處理的數據,是分區并排序的index索引文件,而reducetask框架從文件中讀取一個key傳遞給reduce方法,同時傳一個value迭代器

b、Value迭代器的hasnext方法會判斷文件中的下一個key是否是傳入時的key(如果是,則返回該value,如果不是,則停止,轉而調用下一個key)

c、看起來的效果,reducetask是將數據事先分組,每組調用一次reduce方法(其實不是)

d、reducetask處理完后,將所有分區文件進行歸并排序生成大文件輸出(默認輸出到hdfs)

e、MapReduce流程有哪些

5、  output(reduce端輸出處理結果)

對數據進行TextOutputFormat處理,然后lineRecordWritor循環調用

nextKeyValue、getCurrentKey、getCurrentValue,輸出到外部文件系統(hdfs)

“MapReduce流程有哪些”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注創新互聯網站,小編將為大家輸出更多高質量的實用文章!

新聞標題:MapReduce流程有哪些
轉載來于:http://m.newbst.com/article32/ppiesc.html

成都網站建設公司_創新互聯,為您提供營銷型網站建設、微信小程序、網站策劃、定制網站手機網站建設、建站公司

廣告

聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯

微信小程序開發