盗墓笔记txt全集下载,大主宰

最近2018中文字幕在日韩欧美国产成人片_国产日韩精品一区二区在线_在线观看成年美女黄网色视频_国产精品一区三区五区_国产精彩刺激乱对白_看黄色黄大色黄片免费_人人超碰自拍cao_国产高清av在线_亚洲精品电影av_日韩美女尤物视频网站

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

詳解Spark中RDD的運行機制

RDD：彈性分布式數(shù)據(jù)集（Resilient Distributed Dataset，簡稱 RDD）。RDD 其實就是分布式的元素集合?！?Spark最根本的數(shù)據(jù)抽象。

在梅州等地區(qū)，都構建了全面的區(qū)域性戰(zhàn)略布局，加強發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力，以專注、極致的服務理念，為客戶提供成都做網(wǎng)站、成都網(wǎng)站制作網(wǎng)站設計制作按需定制,公司網(wǎng)站建設,企業(yè)網(wǎng)站建設,品牌網(wǎng)站制作,成都營銷網(wǎng)站建設,外貿(mào)網(wǎng)站建設,梅州網(wǎng)站建設費用合理。

1. RDD 的設計與運行原理

Spark 的核心是建立在統(tǒng)一的抽象 RDD 之上，基于 RDD 的轉換和行動操作使得 Spark 的各個組件可以無縫進行集成，從而在同一個應用程序中完成大數(shù)據(jù)計算任務。

在實際應用中，存在許多迭代式算法和交互式數(shù)據(jù)挖掘工具，這些應用場景的共同之處在于不同計算階段之間會重用中間結果，即一個階段的輸出結果會作為下一個階段的輸入。而 Hadoop 中的 MapReduce 框架都是把中間結果寫入到 HDFS 中，帶來了大量的數(shù)據(jù)復制、磁盤 IO 和序列化開銷，并且通常只支持一些特定的計算模式。而 RDD 提供了一個抽象的數(shù)據(jù)架構，從而讓開發(fā)者不必擔心底層數(shù)據(jù)的分布式特性，只需將具體的應用邏輯表達為一系列轉換處理，不同 RDD 之間的轉換操作形成依賴關系，可以實現(xiàn)管道化，從而避免了中間結果的存儲，大大降低了數(shù)據(jù)復制、磁盤 IO 和序列化開銷。

1.1. RDD 概念

一個 RDD 就是一個分布式對象集合，提供了一種高度受限的共享內(nèi)存模型，其本質上是一個只讀的分區(qū)記錄集合，不能直接修改。每個 RDD 可以分成多個分區(qū)，每個分區(qū)就是一個數(shù)據(jù)集片段，并且一個 RDD 的不同分區(qū)可以保存到集群中不同的節(jié)點上，從而可以在集群中的不同節(jié)點上進行并行計算。

RDD 提供了一組豐富的操作以支持常見的數(shù)據(jù)運算，分為“行動”（Action）和“轉換”（Transformation）兩種類型，前者用于執(zhí)行計算并指定輸出的形式，后者指定 RDD 之間的相互依賴關系。RDD 提供的轉換接口都非常簡單，都是類似 map 、filter 、groupBy 、join 等粗粒度的數(shù)據(jù)轉換操作，而不是針對某個數(shù)據(jù)項的細粒度修改。因此，RDD 比較適合對于數(shù)據(jù)集中元素執(zhí)行相同操作的批處理式應用，而不適合用于需要異步、細粒度狀態(tài)的應用，比如 Web 應用系統(tǒng)、增量式的網(wǎng)頁爬蟲等。

RDD 的典型的執(zhí)行過程如下：

讀入外部的數(shù)據(jù)源（或者內(nèi)存中的集合）進行 RDD 創(chuàng)建；
RDD 經(jīng)過一系列的 “轉換” 操作，每一次都會產(chǎn)生不同的 RDD，供給下一個轉換使用；
最后一個 RDD 經(jīng)過 “行動” 操作進行處理，并輸出指定的數(shù)據(jù)類型和值。

“
RDD 采用了惰性調用，即在 RDD 的執(zhí)行過程中，所有的轉換操作都不會執(zhí)行真正的操作，只會記錄依賴關系，而只有遇到了行動操作，才會觸發(fā)真正的計算，并根據(jù)之前的依賴關系得到最終的結果。
”

下面以一個實例來描述 RDD 的實際執(zhí)行過程，如下圖所示，開始從輸入中創(chuàng)建了兩個 RDD，分別是 A 和 C，然后經(jīng)過一系列的轉換操作，最終生成了一個 F，這也是一個 RDD。注意，這些轉換操作的執(zhí)行過程中并沒有執(zhí)行真正的計算，基于創(chuàng)建的過程也沒有執(zhí)行真正的計算，而只是記錄的數(shù)據(jù)流向軌跡。當 F 執(zhí)行了行為操作并生成輸出數(shù)據(jù)時，Spark 才會根據(jù) RDD 的依賴關系生成有向無環(huán)圖（DAG），并從起點開始執(zhí)行真正的計算。正是 RDD 的這種惰性調用機制，使得轉換操作得到的中間結果不需要保存，而是直接管道式的流入到下一個操作進行處理。

1.2. RDD 特性

總體而言，Spark 采用 RDD 以后能夠實現(xiàn)高效計算的主要原因如下：

高效的容錯性。在 RDD 的設計中，只能通過從父 RDD 轉換到子 RDD 的方式來修改數(shù)據(jù)，這也就是說我們可以直接利用 RDD 之間的依賴關系來重新計算得到丟失的分區(qū)，而不需要通過數(shù)據(jù)冗余的方式。而且也不需要記錄具體的數(shù)據(jù)和各種細粒度操作的日志，這大大降低了數(shù)據(jù)密集型應用中的容錯開銷。
中間結果持久化到內(nèi)存。數(shù)據(jù)在內(nèi)存中的多個 RDD 操作之間進行傳遞，不需要在磁盤上進行存儲和讀取，避免了不必要的讀寫磁盤開銷；
存放的數(shù)據(jù)可以是 Java 對象，避免了不必要的對象序列化和反序列化開銷。

1.3. RDD 之間的依賴關系

RDD 中的不同的操作會使得不同 RDD 中的分區(qū)會產(chǎn)生不同的依賴關系，主要分為窄依賴（Narrow Dependency）與寬依賴（Wide Dependency）。其中，窄依賴表示的是父 RDD 和子 RDD 之間的一對一關系或者多對一關系，主要包括的操作有 map、filter、union 等；而寬依賴則表示父 RDD 與子 RDD 之間的一對多關系，即一個父 RDD 轉換成多個子 RDD，主要包括的操作有 groupByKey、sortByKey 等。

對于窄依賴的 RDD，可以以流水線的方式計算所有父分區(qū)，不會造成網(wǎng)絡之間的數(shù)據(jù)混合。對于寬依賴的 RDD，則通常伴隨著 Shuffle 操作，即首先需要計算好所有父分區(qū)數(shù)據(jù)，然后在節(jié)點之間進行 Shuffle。因此，在進行數(shù)據(jù)恢復時，窄依賴只需要根據(jù)父 RDD 分區(qū)重新計算丟失的分區(qū)即可，而且可以并行地在不同節(jié)點進行重新計算。而對于寬依賴而言，單個節(jié)點失效通常意味著重新計算過程會涉及多個父 RDD 分區(qū)，開銷較大。此外，Spark 還提供了數(shù)據(jù)檢查點和記錄日志，用于持久化中間 RDD，從而使得在進行失敗恢復時不需要追溯到最開始的階段。在進行故障恢復時，Spark 會對數(shù)據(jù)檢查點開銷和重新計算 RDD 分區(qū)的開銷進行比較，從而自動選擇最優(yōu)的恢復策略。

1.4. 階段的劃分

Spark 通過分析各個 RDD 的依賴關系生成了 DAG ，再通過分析各個 RDD 中的分區(qū)之間的依賴關系來決定如何劃分階段，具體劃分方法是：在 DAG 中進行反向解析，遇到寬依賴就斷開，遇到窄依賴就把當前的 RDD 加入到當前的階段中；將窄依賴盡量劃分在同一個階段中，可以實現(xiàn)流水線計算。例如在下圖中，首先根據(jù)數(shù)據(jù)的讀取、轉化和行為等操作生成 DAG。然后在執(zhí)行行為操作時，反向解析 DAG，由于從 A 到 B 的轉換和從 B、F 到 G 的轉換都屬于寬依賴，則需要從在寬依賴處進行斷開，從而劃分為三個階段。把一個 DAG 圖劃分成多個 “階段” 以后，每個階段都代表了一組關聯(lián)的、相互之間沒有 Shuffle 依賴關系的任務組成的任務集合。每個任務集合會被提交給任務調度器（TaskScheduler）進行處理，由任務調度器將任務分發(fā)給 Executor 運行。

1.5. RDD 運行過程

通過上述對 RDD 概念、依賴關系和階段劃分的介紹，結合之前介紹的 Spark 運行基本流程，這里再總結一下 RDD 在 Spark 架構中的運行過程（如下圖所示）：

創(chuàng)建 RDD 對象；
SparkContext 負責計算 RDD 之間的依賴關系，構建 DAG；
DAGSchedule 負責把 DAG 圖反向解析成多個階段，每個階段中包含多個任務，每個任務會被任務調度器分發(fā)給工作節(jié)點上的 Executor 上執(zhí)行。

標題名稱：詳解Spark中RDD的運行機制
網(wǎng)站URL：http://m.fisionsoft.com.cn/article/djhcjep.html