廣州總校區(qū)切換校區(qū)
復制成功
微信號:togogoi
添加微信好友, 詳細了解課程
已復制成功,如果自動跳轉(zhuǎn)微信失敗,請前往微信添加好友
打開微信
圖片

行業(yè)新聞

什么是RDD

發(fā)布時間: 2023-04-18

RDD,彈性分布式數(shù)據(jù)集。它是一種數(shù)據(jù)的集合,它可以被分區(qū),每一個分區(qū)分布在不同的集群中節(jié)點,從而使得RDD可以被并行處理,RDD?提供容錯性,它將計算轉(zhuǎn)換一個成一個有向無環(huán)圖(DAG)的任務(wù)集合,方便利用血緣關(guān)系進行數(shù)據(jù)恢復,中間計算結(jié)果緩存在內(nèi)存。

二 RDD與MapReduce比較

2.1 迭代計算

MapReduce在進行迭代計算的時候,都需要讀寫磁盤,如果涉及到多個作業(yè)流程,那么意味著多次讀寫HDFS,所以MapReduce在迭代式計算的時候,會進行大量的磁盤I/O操作

RDD: RDD會將計算轉(zhuǎn)換成一個DAG的任務(wù)集,每次處理完后的數(shù)據(jù)緩存到內(nèi)存中,并且可以作為下一次計算的輸入數(shù)據(jù),所以只需要一次讀寫操作,避免了大量的I/O操作

2.2 容錯機

基于YARN的MapReduce的Task執(zhí)行過程產(chǎn)生異常和和JVM的意外終止,會匯報給Application Master,任務(wù)失敗一次,并不意味著任務(wù)的完全失敗,它有重試機制,當達到重試次數(shù)限制還沒有成功,則認為該任務(wù)運行失敗

如果ApplicationMaster失敗,那么Resource Manager進行失敗檢測然后重新啟動一個新的Container,然后在這個Container中啟動新的Application Master進程。對于新創(chuàng)建的Application Master,它能夠檢測到之前失敗的Application Master已經(jīng)運行完成的任務(wù),因此,新的Application Master無需重頭開始已經(jīng)執(zhí)行過的任務(wù)。

RDD: 有兩種容錯方式,數(shù)據(jù)檢查點和記錄數(shù)據(jù)的更新。

面向大規(guī)模數(shù)據(jù)分析,數(shù)據(jù)檢查點操作成本很高,需要通過數(shù)據(jù)中心的網(wǎng)絡(luò)連接在機器之間復制龐大的數(shù)據(jù)集,而網(wǎng)絡(luò)帶寬往往比內(nèi)存帶寬低得多,同時還需要消耗更多的存儲資源。

?

上一篇: Oracle數(shù)據(jù)庫控制臺常用命令

下一篇: Java線程的狀態(tài)

<
在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優(yōu)質(zhì)服務(wù)!