Spark學(xué)習(xí)筆記（一）Spark初識【特性、組成、應(yīng)用】-創(chuàng)新互聯(lián)

本文實(shí)例講述了Spark基本特性、組成、應(yīng)用。分享給大家供大家參考，具體如下：

創(chuàng)新互聯(lián)公司IDC提供業(yè)務(wù):成都二樞機(jī)房,成都服務(wù)器租用,成都二樞機(jī)房,重慶服務(wù)器租用等四川省內(nèi)主機(jī)托管與主機(jī)租用業(yè)務(wù);數(shù)據(jù)中心含:雙線機(jī)房,BGP機(jī)房,電信機(jī)房,移動機(jī)房,聯(lián)通機(jī)房。

一、官網(wǎng)介紹

1、什么是Spark

官網(wǎng)地址：http://spark.apache.org/

Spark學(xué)習(xí)筆記（一）Spark初識【特性、組成、應(yīng)用】

Apache Spark™是用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎。

從右側(cè)最后一條新聞看，Spark也用于AI人工智能

spark是一個實(shí)現(xiàn)快速通用的集群計算平臺。它是由加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室開發(fā)的通用內(nèi)存并行計算框架，用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。它擴(kuò)展了廣泛使用的MapReduce計算模型。高效的支撐更多計算模式，包括交互式查詢和流處理。spark的一個主要特點(diǎn)是能夠在內(nèi)存中進(jìn)行計算，及時依賴磁盤進(jìn)行復(fù)雜的運(yùn)算，Spark依然比MapReduce更加高效。

2、為什么要學(xué)Spark

中間結(jié)果輸出：基于MapReduce的計算引擎通常會將中間結(jié)果輸出到磁盤上，進(jìn)行存儲和容錯。出于任務(wù)管道承接的，考慮，當(dāng)一些查詢翻譯到MapReduce任務(wù)時，往往會產(chǎn)生多個Stage，而這些串聯(lián)的Stage又依賴于底層文件系統(tǒng)（如HDFS）來存儲每一個Stage的輸出結(jié)果。

Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生態(tài)系統(tǒng)，以彌補(bǔ)MapReduce的不足。

二、Spark的四大特性

1、高效性

運(yùn)行速度提高100倍。

Apache Spark使用最先進(jìn)的DAG調(diào)度程序，查詢優(yōu)化程序和物理執(zhí)行引擎，實(shí)現(xiàn)批量和流式數(shù)據(jù)的高性能。

Spark學(xué)習(xí)筆記（一）Spark初識【特性、組成、應(yīng)用】

2、易用性

Spark支持Java、Python和Scala的API，還支持超過80種高級算法，使用戶可以快速構(gòu)建不同的應(yīng)用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在這些shell中使用Spark集群來驗(yàn)證解決問題的方法。

Spark學(xué)習(xí)筆記（一）Spark初識【特性、組成、應(yīng)用】

3、通用性

Spark提供了統(tǒng)一的解決方案。Spark可以用于批處理、交互式查詢（Spark SQL）、實(shí)時流處理（Spark Streaming）、機(jī)器學(xué)習(xí)（Spark MLlib）和圖計算（GraphX）。這些不同類型的處理都可以在同一個應(yīng)用中無縫使用。Spark統(tǒng)一的解決方案非常具有吸引力，畢竟任何公司都想用統(tǒng)一的平臺去處理遇到的問題，減少開發(fā)和維護(hù)的人力成本和部署平臺的物力成本。

Spark學(xué)習(xí)筆記（一）Spark初識【特性、組成、應(yīng)用】

4、兼容性

Spark可以非常方便地與其他的開源產(chǎn)品進(jìn)行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作為它的資源管理和調(diào)度器，器，并且可以處理所有Hadoop支持的數(shù)據(jù)，包括HDFS、HBase和Cassandra等。這對于已經(jīng)部署Hadoop集群的用戶特別重要，因?yàn)椴恍枰鋈魏螖?shù)據(jù)遷移就可以使用Spark的強(qiáng)大處理能力。Spark也可以不依賴于第三方的資源管理和調(diào)度器，它實(shí)現(xiàn)了Standalone作為其內(nèi)置的資源管理和調(diào)度框架，這樣進(jìn)一步降低了Spark的使用門檻，使得所有人都可以非常容易地部署和使用Spark。此外，Spark還提供了在EC2上部署Standalone的Spark集群的工具。

Spark學(xué)習(xí)筆記（一）Spark初識【特性、組成、應(yīng)用】

Mesos：Spark可以運(yùn)行在Mesos里面（Mesos 類似于yarn的一個資源調(diào)度框架）

standalone：Spark自己可以給自己分配資源（master，worker）

YARN：Spark可以運(yùn)行在yarn上面

Kubernetes：Spark接收 Kubernetes的資源調(diào)度

三、Spark的組成

Spark組成(BDAS)：全稱伯克利數(shù)據(jù)分析棧，通過大規(guī)模集成算法、機(jī)器、人之間展現(xiàn)大數(shù)據(jù)應(yīng)用的一個平臺。也是處理大數(shù)據(jù)、云計算、通信的技術(shù)解決方案。

它的主要組件有：

SparkCore：將分布式數(shù)據(jù)抽象為彈性分布式數(shù)據(jù)集（RDD），實(shí)現(xiàn)了應(yīng)用任務(wù)調(diào)度、RPC、序列化和壓縮，并為運(yùn)行在其上的上層組件提供API。

SparkSQL：Spark Sql 是Spark來操作結(jié)構(gòu)化數(shù)據(jù)的程序包，可以讓我使用SQL語句的方式來查詢數(shù)據(jù)，Spark支持多種數(shù)據(jù)源，包含Hive表，parquest以及JSON等內(nèi)容。

SparkStreaming：是Spark提供的實(shí)時數(shù)據(jù)進(jìn)行流式計算的組件。

MLlib：提供常用機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫。

GraphX：提供一個分布式圖計算框架，能高效進(jìn)行圖計算。

BlinkDB：用于在海量數(shù)據(jù)上進(jìn)行交互式SQL的近似查詢引擎。

Tachyon：以內(nèi)存為中心高容錯的的分布式文件系統(tǒng)。

四、應(yīng)用場景

Yahoo將Spark用在Audience Expansion中的應(yīng)用，進(jìn)行點(diǎn)擊預(yù)測和即席查詢等淘寶技術(shù)團(tuán)隊(duì)使用了Spark來解決多次迭代的機(jī)器學(xué)習(xí)算法、高計算復(fù)雜度的算法等。應(yīng)用于內(nèi)容推薦、社區(qū)發(fā)現(xiàn)等
騰訊大數(shù)據(jù)精準(zhǔn)推薦借助Spark快速迭代的優(yōu)勢，實(shí)現(xiàn)了在“數(shù)據(jù)實(shí)時采集、算法實(shí)時訓(xùn)練、系統(tǒng)實(shí)時預(yù)測”的全流程實(shí)時并行高維算法，最終成功應(yīng)用于廣點(diǎn)通pCTR投放系統(tǒng)上。
優(yōu)酷土豆將Spark應(yīng)用于視頻推薦(圖計算)、廣告業(yè)務(wù)，主要實(shí)現(xiàn)機(jī)器學(xué)習(xí)、圖計算等迭代計算。

更多關(guān)于java算法相關(guān)內(nèi)容感興趣的讀者可查看本站專題：《Java數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Java操作DOM節(jié)點(diǎn)技巧總結(jié)》、《Java文件與目錄操作技巧匯總》和《Java緩存操作技巧匯總》

希望本文所述對大家java程序設(shè)計有所幫助。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)建站m.newbst.com，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點(diǎn)與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

標(biāo)題名稱：Spark學(xué)習(xí)筆記（一）Spark初識【特性、組成、應(yīng)用】-創(chuàng)新互聯(lián)
分享鏈接：http://m.newbst.com/article40/dpioeo.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供動態(tài)網(wǎng)站、域名注冊、網(wǎng)站營銷、服務(wù)器托管、全網(wǎng)營銷推廣、網(wǎng)站改版

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

Spark學(xué)習(xí)筆記（一）Spark初識【特性、組成、應(yīng)用】-創(chuàng)新互聯(lián)

一、官網(wǎng)介紹

1、什么是Spark

2、為什么要學(xué)Spark

二、Spark的四大特性

1、高效性

2、易用性

3、通用性

4、兼容性

三、Spark的組成

四、應(yīng)用場景

Spark學(xué)習(xí)筆記（一）Spark初識【特性、組成、應(yīng)用】-創(chuàng)新互聯(lián)

2、為什么要學(xué)Spark

二、Spark的四大特性

4、兼容性

三、Spark的組成

四、應(yīng)用場景