spark基礎知識介紹

Spark是一種開源集群計算環境，與Hadoop相似但又有所不同。Apache Spark最初是由加州大學伯克利分銷的AMP實驗室開發出來的，后來成為Apache的開源項目之一，作為專門為大規模數據處理而設計的快速通用型計算引擎來使用。與MapReduce技術相比，Spark有著多種優勢，如提供了統一全面的框架、大大提高了應用運行速度、可以快速使用Java等語言來編寫程序等，目前Spark形成一個應用廣泛、發展高速的生態系統。接下來就讓我們一起來了解下Spark的性能特點、運行模式、運行特點以及體系架構等知識。

spark性能特點

1、專注性。由于高級API剝離了對于集群本身的關注，所以spark開發者可以專注于應用所需要做的計算本身。
2、速度快。Spark支持復雜算法和交互式計算，運行速度快。
3、通用性。Spark是一個通用引擎，因此可以用來完成如文本處理、SQL查詢等運算。
4、支持多種資源管理器。如Hadoop YARN、Apache Mesos等管理器都支持使用。
spark運行模式

1、spark的運行模式是多種多樣的，并不限于一種，可以按需選擇。
2、以單機方式部署時，spark可以用本地模式運行或者偽分布模式運行。
3、部署在分布式集群時，也可以根據集群的實際選擇不同的運行模式。底層資源調度既可以使用spark內建的獨立集群運行模式，也可以依賴外部資源調度框架。
spark運行特點

1、除非在外部存儲系統寫入數據，否則Spark Application就不能跨應用共享數據。
2、spark的運行和資源管理器是沒有關系的，只需獲取executor進程并保持通信即可。
3、提交SparkContext的Client需靠近運行Executor的節點，而且最好在同一個Rack里。
4、Task采用的優化機制是數據本地性和準側執行。
spark體系架構

Spark體系架構主要有三個組件。
1、數據存儲。Spark使用HDFS文件系統來存儲數據。
2、資源管理。Spark有多種不同的部署方式，可以部署在一個單獨服務器上，也可以部署在分布式計算框架上，如Mesos等。
3、API。Spark提供三種程序設計語言的API，分別是Java、Scala和Python。開發者可以利用標準的API接口來創建基于Spark的應用。
spark與hadoop的關系

1、spark自身是沒有提供分布式文件系統的，其分析大部分都需要依賴于Hadoop的分布式文件系統，也就是HDFS。
2、Mapreduce是Hadoop的分布式計算模塊，Mapreduce和spark都可以計算數據，但Mapreduce比spark速度要慢一些，且功能也不如spark豐富。
3、spark可以看作是Hadoop MapReduce的替代品，用來提供一個全面、統一的管理大數據用例和需求的解決方案。

久久人人做人人妻人人玩精品,草草影院精品一区二区三区,亚洲成a人v在线观看,国产区在线免费观看

spark基礎知識介紹

spark性能特點

spark運行模式

spark運行特點

spark體系架構

spark與hadoop的關系