Spark RDD Lineage and Checkpoint
Lineage
- 一串序列的RDD transformation組成的Compute chain,在這條Chain的RDD之間的關係依賴圖稱為Lineage
- 若Chain中的某個RDD的某個Partition遺失了,則可以根據Lineage得知Parent RDD後,重新計算遺失的Partition即可,而不需要從資料來源整個Chain重新計算
- 可達成RDD的容錯機制
Checkpoint:
- 當Compute chain太長時,可以使用Checkpoint來達成RDD落地以及容錯
- Checkpoint將某個RDD保存到某個文件中,並將其Parent RDD移除,換句話說,設為一個新的Chain起點
Lineage and Checkpoint Code
|
|
|
|