hadoop的基本概念
偽分布式hadoop集群安裝
hdfs、MapReduce演示
互聯(lián)網(wǎng)正在從IT走向DT時代。
大數(shù)據(jù)應(yīng)用分析
1、統(tǒng)計類的分析
2、推薦類的分析
3、機器學(xué)習(xí)(分類,聚類)
4、人工智能、預(yù)測(算法)
官網(wǎng):http://hadoop.apache.org
hadoop是apache旗下的一套開源軟件平臺。
是一個可靠的、可擴展的、可分布式計算的開源軟件。
apache hadoop平臺是一個框架,允許使用簡單的編程模型。
該平臺被設(shè)計成可以從單個服務(wù)器擴展到數(shù)千臺服務(wù)器,每個服務(wù)器都提供本地計算和存儲。
也被設(shè)計成可檢測和處理應(yīng)用層的故障(即高可靠、高容錯),高可用服務(wù)是基于計算機集群的,并且其中每一臺計算機都有可能失效。
hadoop提供的功能:利用服務(wù)器集群,根據(jù)用戶的自定義業(yè)務(wù)邏輯,對海量數(shù)據(jù)進(jìn)行分布式處理
作者:doug cutting
hadoop的核心組件:
hadoop common:hadoop工具
hadoop distributed file system(HDFS):分布式文件系統(tǒng),解決海量數(shù)據(jù)的存儲
hadoop YARN:運算資源調(diào)度系統(tǒng),解決資源管理調(diào)度
hadoop MapReduce:分布式運算編程框架,解決海量數(shù)據(jù)的分析模型
Hadoop在2.0將資源管理從MapReduce中獨立出來變成通用框架后,就從1.0的三層結(jié)構(gòu)演變?yōu)榱爽F(xiàn)在的四層架構(gòu):
1. 底層——存儲層,文件系統(tǒng)HDFS
2. 中間層——資源及數(shù)據(jù)管理層,YARN以及Sentry等
3. 上層——MapReduce、Impala、Spark等計算引擎
4. 頂層——基于MapReduce、Spark等計算引擎的高級封裝及工具,如Hive、Pig、Mahout等等
廣義上來說,hadoop通常是指一個更廣泛的概念——Hadoop生態(tài)圈
1、hadoop最早起源于Nutch。
Nutch的設(shè)計目標(biāo)是構(gòu)建一個大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁數(shù)量的增加,遇到了嚴(yán)重的可擴展性問題——如何解決數(shù)十億網(wǎng)頁的存儲和索引問題。
2、2003年、2004年谷歌發(fā)表的兩篇論文為該問題提供了可行的解決方案。
分布式文件系統(tǒng)(GFS),可用于處理海量網(wǎng)頁的存儲;
分布式計算框架MapReduce,可用于處理海量網(wǎng)頁的索引計算問題。
3、Nutch的開發(fā)人員完成了相應(yīng)的開源實現(xiàn)HDFS和MapReduce,并從Nutch中剝離成為獨立項目hadoop,到2008年1月,hadoop成為apache頂級項目,迎來了快速發(fā)展期。
1、云計算是分布式計算、并行計算、網(wǎng)格計算、多核計算、網(wǎng)絡(luò)存儲、虛擬化、負(fù)載均衡等傳統(tǒng)計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)融合發(fā)展的產(chǎn)物。借助Iaas(基礎(chǔ)設(shè)施即服務(wù))、Paas(平臺即服務(wù))、Saas(軟件即服務(wù))等業(yè)務(wù)模式,把強大的計算能力提供給終端用戶
2、現(xiàn)階段,云計算的底層支撐技術(shù)為“虛擬化”和“大數(shù)據(jù)技術(shù)”
3、而hadoop則是云計算的Paas層的解決方案之一,并不等同于Paas,更不等同于云計算本身。
四、大數(shù)據(jù)處理業(yè)務(wù)應(yīng)用
1、大型網(wǎng)站web服務(wù)器的日志分析:一個大型網(wǎng)站的web服務(wù)器集群 ,每5分鐘收錄的點擊日志高達(dá)800GB左右,峰值點擊每秒達(dá)到900萬次,每個5分鐘將數(shù)據(jù)裝載到內(nèi)存中,高速計算網(wǎng)站的熱點URL,并將這些信息反饋給前端緩存服務(wù)器,以提高緩存命中率。
2、運營商流量分析:每天的流量數(shù)據(jù)在2TB~5TB左右,拷貝到HDFS上,通過交互式分析引擎框架,能運行幾百個復(fù)雜的數(shù)據(jù)清洗和報表業(yè)務(wù),總時間比類似硬件配置的小型機集群和DB2快2~3倍。
3、IPTV收視統(tǒng)計與點播推薦:一個實時收視率統(tǒng)計和點播推薦系統(tǒng),可以實時收集用戶的遙控器操作,提供實時的收視率榜單;并且根據(jù)內(nèi)容推薦和協(xié)同過濾算法,實現(xiàn)了點播推薦服務(wù)。
4、城市交通卡口視頻監(jiān)控信息的實時分析:采用基于流式stream進(jìn)行全省范圍的交通卡口通過視頻監(jiān)控收錄的信息進(jìn)行實時分析、告警和統(tǒng)計(計算實時路況),對全省范圍內(nèi)未年檢車輛或×××的分析延時在300毫秒左右,可以做出實時告警。
大數(shù)據(jù)是個復(fù)合專業(yè),包括應(yīng)用開發(fā)、軟件平臺、算法、數(shù)據(jù)挖掘等,因此,大數(shù)據(jù)技術(shù)領(lǐng)域的就業(yè)選擇是多樣的,但就hadoop而言,通常都需要具備以下技能或知識:
1、hadoop分布式集群的平臺搭建
2、hadoop分布式文件系統(tǒng)HDFS的原理理解及使用
3、hadoop分布式運算框架MapReduce的原理理解及編程
4、hive數(shù)據(jù)倉庫工具的熟練應(yīng)用
5、flume、sqoop、oozie等輔助工具的熟練使用
6、shell、python等腳本語言的開發(fā)能力
HDFS的架構(gòu):
主從結(jié)構(gòu):
主節(jié)點:namenode
從節(jié)點:有很多個datanode
namenode負(fù)責(zé):
接受用戶操作請求
存儲文件的元數(shù)據(jù)以及每個文件的塊列表和塊所在的datanode等
維護(hù)文件系統(tǒng)的目錄結(jié)構(gòu)
管理文件與block之間的關(guān)系,block與datanode之間關(guān)系
datanode負(fù)責(zé):
存儲文件
在本地文件系統(tǒng)存儲文件塊數(shù)據(jù),以及塊數(shù)據(jù)的校驗和
文件被分成block存儲在磁盤上
為保證數(shù)據(jù)安全,文件會有多個副本
secondary namenode(2nn):用于監(jiān)控HDFS狀態(tài)的輔助后臺程序,每隔一段時間獲取和hdfs元數(shù)據(jù)的快照。
YARN架構(gòu):
1)ResourceManager(RM)主要作用如下:
(1)處理客戶端請求
(2)監(jiān)控NodeManager
(3)啟動或監(jiān)控ApplicationMaster
2)NodeManager(nm)主要作用如下:
(1)管理單個節(jié)點上的資源
(2)處理來自ResourceManager的命令
(3)處理來自ApplicationMaster的命令
3)ApplicationMaster(AM)作用:
(1)輔助數(shù)據(jù)的切分
(2)為應(yīng)用程序申請資源并分配給內(nèi)部的任務(wù)
(3)任務(wù)的監(jiān)控與容錯
4)Container
Container是YARN中的資源抽象,它封裝了某個節(jié)點上的多維度資源,如內(nèi)存、CPU、磁盤、網(wǎng)絡(luò)等。
問題:怎么解決海量數(shù)據(jù)的計算
Mapreduce架構(gòu):
兩個程序:
Map:局部并行處理輸入數(shù)據(jù)
reduce:匯總局部處理的結(jié)果,再統(tǒng)計全局
hadoop1.x和hadoop2.x版本的區(qū)別:
安裝部署,運維、開發(fā)、測試
HDFS三大核心:HDFS、MapReduce、YARN
四個模塊:
hadoop common:為其他hadoop模塊提供基礎(chǔ)設(shè)施
hadoop dfs:一個高可靠、高吞吐量的分布式文件系統(tǒng)
hadoop mapreduce:一個分布式的離線并行計算框架
hadoop yarn:一個新的mapreduce框架,任務(wù)調(diào)度和資源管理
hadoop安裝:
1.Hadoop單機模式
單機模式是Hadoop默認(rèn)的安裝模式,這種安裝模式主要就是并不配置更多的配置文件,只是保守的去設(shè)置默認(rèn)的幾個配置文件中的初始化參數(shù),它并不與其他節(jié)點進(jìn)行交互,并且也不使用HDFS文件系統(tǒng),它主要就是為了調(diào)試MapReduce程序而生。
2.Hadoop偽分布式安裝模式
Hadoop偽分布式安裝,需要配置5個常規(guī)的配置文件(XML),并且這里涉及到了NameNode和DataNode節(jié)點交互問題,而且NameNode和DataNode在同一個節(jié)點上,還需要配置互信。其實從嚴(yán)格意義上來講,偽分布式集群,就已經(jīng)可以稱之為真正意義上的集群了,而且這里也包含了hdfs和MapReduce所有組件,只不過就是所有組件在同一個節(jié)點上而已。
3.Hadoop完全分布式安裝模式
Hadoop完全分布式集群主要分為:常規(guī)Hadoop完全分布式集群和Hadoop HA集群(這里主要針對的是NameNode個數(shù)和NameNode的高可用保障機制而言)。由此可知較偽分布式集群而言,完全分布式集群,所有處理節(jié)點并不在同一個節(jié)點上,而是在多個節(jié)點上。
1、系統(tǒng)環(huán)境
平臺:VMware Workstation 14
系統(tǒng):centos 7.4
2、修改主機名:
hostnamectl set-hostname hadoop
useradd hadoop
passwd hadoop
visodu
hadoop ALL=(ALL) ALL
注:改完主機名后,需要exit退出,重新啟動。
3、修改/etc/hosts域名解析配置文件
vi /etc/hosts
192.168.80.100 hadoop
4、關(guān)閉防火墻和selinux
systemctl disable firewalld
systemctl stop firewalld
setenforce 0
sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config
5、安裝時間同步
yum -y install ntpdate
ntpdate time1.aliyun.com
6、安裝Java環(huán)境
1)解壓Java壓縮包
tar -xf jdk-8u11-linux-x64.tar.gz -C /opt
cp -rf jdk1.8.0_11/ /usr/local/java
2)配置Java環(huán)境變量
vi /etc/profile
末尾新增:
export JAVA_HOME=/usr/local/java
export JRE_HOME=/usr/local/java/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin
3)生效環(huán)境變量
source /etc/profile
4)驗證
java -version
出現(xiàn)以下提示,代表java環(huán)境部署成功:
java version "1.8.0_11"
Java(TM) SE Runtime Environment (build 1.8.0_11-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.11-b03, mixed mode)
二、hadoop正式部署安裝
官方文檔:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation
下載地址:http://archive.apache.org/dist/hadoop/core/hadoop-3.1.0/hadoop-3.1.0.tar.gz
1、解壓hadoop軟件包
tar xf hadoop-3.1.0.tar.gz
2、重命名
mv hadoop-3.1.0/ /home/hadoop/hadoop
3、配置環(huán)境變量
vi /etc/profile
export HADOOP_HOME=/home/hadoop/hadoop
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
export HADOOP_COMMON_LIB_NATIVE_DIR=/home/hadoop/hadoop/lib/native
export HADOOP_OPTS="-Djava.library.path=/home/hadoop/hadoop/lib"
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
#hadoop-3.1.0必須添加如下5個變量否則啟動報錯,hadoop-2.x貌似不需要
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
站在用戶的角度思考問題,與客戶深入溝通,找到永定網(wǎng)站設(shè)計與永定網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗,讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:成都網(wǎng)站建設(shè)、網(wǎng)站設(shè)計、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣、主機域名、網(wǎng)站空間、企業(yè)郵箱。業(yè)務(wù)覆蓋永定地區(qū)。
4、生效環(huán)境變量
source /etc/profile
5、測試是否配置成功
hadoop version
出現(xiàn)以下信息,代表配置成功:
Hadoop 3.1.0
Source code repository https://github.com/apache/hadoop -r 16b70619a24cdcf5d3b0fcf4b58ca77238ccbe6d
Compiled by centos on 2018-03-30T00:00Z
Compiled with protoc 2.5.0
From source with checksum 14182d20c972b3e2105580a1ad6990
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-3.1.0.jar
7、hadoop目錄認(rèn)識
修改配置文件之前,先看一下hadoop下的目錄:
bin:hadoop最基本的管理腳本和使用腳本所在目錄,這些腳本是sbin目錄下管理腳本的基礎(chǔ)實現(xiàn),用戶可以直接使用這些腳本管理和使用hadoop
etc:配置文件存放的目錄,包括core-site.xml,hdfs-site.xml,mapred-site.xml等從hadoop1.x繼承而來的配置文件和yarn-site.xml等hadoop2.x新增的配置文件
include:對外提供的編程庫頭文件(具體動態(tài)庫和靜態(tài)庫在lib目錄中,這些頭文件軍事用c++定義的,通常用于c++程序訪問hdfs或者編寫mapreduce程序)
Lib:該目錄包含了hadoop對外提供的才變成動態(tài)庫和靜態(tài)庫,與include目錄中的頭文件結(jié)合使用
libexec:各個服務(wù)對應(yīng)的shell配置文件所在目錄,可用于配置日志輸出目錄、啟動參數(shù)等信息
sbin:hadoop管理腳本所在目錄,主要包含hdfs和yarn中各類服務(wù)的啟動、關(guān)閉腳本
share:hadoop各個模塊編譯后的jar包所在目錄。
cd /home/hadoop/hadoop/etc/hadoop #此目錄是存放配置文件的
vi hadoop-env.sh #hadoop的變量設(shè)置腳本
#hadoop-3.1.0是第54行,hadoop-2.7.7是第25行
export JAVA_HOME=/usr/local/java
測試:
mkdir /home/input
hadoop jar /home/hadoop/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.0.jar wordcount /home/input /home/output
hdfs dfs -ls /
cd /home/hadoop/hadoop/etc/hadoop/
vi core-site.xml #hadoopg公共文件,全局配置文件
添加以下幾行:
<configuration>
<!--指定HADOOP所使用的文件系統(tǒng)schema(URI),HDFS的老大(NameNode)的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop:9000</value>
</property>
<!--指定HADOOP運行時產(chǎn)生文件的存儲目錄-->
<property>
<name>hadoop.tmp.dir</name> #指定臨時數(shù)據(jù)存儲目錄
<value>/home/hadoop/hadoop/tmp</value> #系統(tǒng)路徑
</property>
</configuration>
注意:在hadoop安裝目錄的文檔中有所有配置文件的默認(rèn)參數(shù)表,用戶可以查看后,根據(jù)實際情況進(jìn)行修改。
uri是使用自己的協(xié)議以及自己的地址端口
/usr/local/hadoop/share/doc/hadoop/hadoop-project-dist/hadoop-common/core-default.html文檔中可以看到:
hadoop.tmp.dir的默認(rèn)值是/tmp/hadoop-${user.name}。/tmp/是Linux系統(tǒng)的臨時目錄,如果我們不重新指定的話,默認(rèn)Hadoop工作目錄在Linux的臨時目錄,一旦Linux系統(tǒng)重啟,所有文件將會清空,包括元數(shù)據(jù)等信息都丟失了,需要重新進(jìn)行格式化,非常麻煩。
vi hdfs-site.xml #hdfs站點配置文件
添加以下幾行:
<configuration>
<!--指定HDFS副本的數(shù)量-->
<property>
<name>dfs.replication</name> #指定hdfs的副本數(shù)
<value>1</value> #指定副本數(shù)量
</property>
<!--設(shè)置默認(rèn)端口,如果不加上會導(dǎo)致啟動hadoop-3.1.0后無法訪問50070端口查看HDFS管理界面,hadoop-2.x可以不加-->
<property>
<name>dfs.http.address</name>
<value>192.168.80.100:50070</value>
</property>
</configuration>
注:
hdfs-default.xml文檔中可以看到:
dfs.replication的默認(rèn)值是3,由于HDFS的副本數(shù)不能大于DataNode數(shù),而我們此時安裝的hadoop中只有一個DataNode,所以將dfs.replication值改為1。
dfs.namenode.http-address在hadoop-3.1.0版本上的默認(rèn)值是?0.0.0.0:9870 ,在hadoop-2.7.7版本上的默認(rèn)值是0.0.0.0:50070,所以不同版本可以通過不同端口訪問NameNode。
cp mapred-site.xml.templete mapred-site.xml #重命名,hadoop-3.1.0系統(tǒng)中就是mapred-site.xml不需要改名,hadoop-2.x需要改名
vi mapred-site.xml #添加如下幾行,指定hadoop運行在哪種計算框架上,這里指定yarn框架。
<!--指定mr運行在yarn上-->
<property>
<name>mapreduce.framework.name</name> #指定MapReduce程序放在哪個服務(wù)上去啟用
<value>yarn</value>
</property>
vi yarn-env.xml #2.x版本需要更改jdk路徑
export JAVA_HOME =
vi yarn-site.xml #添加如下幾行
<configuration>
<!-- 指定YARN集群的老大(ResourceManager)的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop</value>
</property>
<!-- 指定reducer獲取數(shù)據(jù)的方式-->
<property>
<name>yarn.nodemanager.aux-services</name> #
<value>mapreduce_shuffle</value>
</property>
</configuration>
8、免密碼交互
ssh-keygen -t rsa #生成ssh密鑰對
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): #直接回車
Enter passphrase (empty for no passphrase): #直接回車
Enter same passphrase again: #直接回車
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:9NevFFklAS5HaUGJtVrfAlbYk82bStTwPvHIWY7as38 root@hadoop
The key's randomart image is:
+---[RSA 2048]----+
| |
| |
| |
| . |
| . o S = |
| ..O * = |
| =X.%.E . . |
| *+=%oBo+.o |
| o=B+o++o.oo. |
+----[SHA256]-----+
cd /root/.ssh/
ls
id_rsa id_rsa.pub known_hosts
注:
#id_rsa為私鑰,id_rsa.pub為公鑰
因為搭建的是hadoop偽分布式,所以namenode與datanode都在一個節(jié)點上。
cp id_rsa.pub authorized_keys #使主機之間可以免密碼登錄
ssh hadoop date #查看(不需要輸入密碼,直接輸出結(jié)果,說明免密成功)
9、啟動hadoop集群
1)首先格式化NameNode
注意:如果格式化NameNode之后運行過hadoop,然后又想再格式化一次NameNode,那么需要先刪除第一次運行Hadoop后產(chǎn)生的VERSION文件,否則會出錯,詳情見第四部分問題4。
cd
[root@hadoop ~]# hdfs namenode -format #中間沒有報錯并且最后顯示如下信息表示格式化成功
...
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop/192.168.80.100
************************************************************/
格式化完成后,系統(tǒng)會在dfs.data.dir目錄下生成元數(shù)據(jù)信息。
name/current
data/current
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
或者:
start-dfs.sh
start-yarn.sh
2)輸入 start-all.sh 啟動
start-all.sh
Starting namenodes on [hadoop]
上一次登錄:四 4月 18 23:06:27 CST 2019從 192.168.80.1pts/1 上
Starting datanodes
上一次登錄:四 4月 18 23:53:44 CST 2019pts/1 上
localhost: Warning: Permanently added 'localhost' (ECDSA) to the list of known hosts.
Starting secondary namenodes [hadoop]
上一次登錄:四 4月 18 23:53:46 CST 2019pts/1 上
2019-04-18 23:54:08,969 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Starting resourcemanager
上一次登錄:四 4月 18 23:54:03 CST 2019pts/1 上
Starting nodemanagers
上一次登錄:四 4月 18 23:54:10 CST 2019pts/1 上
3)執(zhí)行 jps 驗證集群是否啟動成功
jps #顯示以下幾個進(jìn)程說明啟動成功
96662 Jps
95273 DataNode #可有可無
95465 SecondaryNameNode #重要
95144 NameNode #重要
95900 NodeManager #可有可無
95775 ResourceManager #非常重要
4)登錄HDFS管理界面(NameNode):http://ip:50070
5)登錄MR管理界面: http://ip:8088
使用:
上傳文件到hdfs中:
hadoop fs -put aa hdfs://192.168.80.100:9000/
注:aa是要上傳的文件名
簡寫:
hadoop fs -put aa /
從hdfs中下載文件:
hadoop fs -get hdfs://192.168.80.100:9000/aa
在hdfs中創(chuàng)建目錄:
hadoop fs -mkdir hdfs://192.168.80.100:9000/word
也可以簡寫:
hadoop fs -mkdir /word
調(diào)用MapReduce程序:
hadoop jar hadoop-mapreduce-examples~ pi 5 5
注:
pi:主類,計算圓周率
5:參數(shù),map的任務(wù)數(shù)量
5:每個map的取樣數(shù)
hadoop jar hadoop-mapreduce-example~ word /word/input /word/output
hadoop fs -ls /word/output
hadoop fs -cat /word/output/part~
HDFS的實現(xiàn)思想:
1、hdfs是通過分布式集群來存儲文件
2、文件存儲到hdfs集群中去的時候是被切分成block的
3、文件的block存放在若干臺datanode節(jié)點上
4、hdfs文件系統(tǒng)中的文件與真實的block之間有映射關(guān)系,由namenode管理
5、每一個block在集群中會存儲多個副本,好處是可以提高數(shù)據(jù)的可靠性,還可以提高訪問的吞吐量
我們可以看到不管是啟動還是關(guān)閉hadoop集群,系統(tǒng)都會報如下錯誤:
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
解決方式:先看看我們安裝的hadoop是否是64位的
[root@hadoop hadoop]# file /usr/local/hadoop/lib/native/libhadoop.so.1.0.0 #出現(xiàn)以下信息表示我們的hadoop是64位的
/usr/local/hadoop/lib/native/libhadoop.so.1.0.0: ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, BuildID[sha1]=8d84d1f56b8c218d2a33512179fabffbf237816a, not stripped
永久解決方式:
vi /usr/local/hadoop/etc/hadoop/log4j.properties #在文件末尾添加如下一句,保存退出
log4j.logger.org.apache.hadoop.util.NativeCodeLoader=Error
配置說明
JDK :Hadoop和Spark 依賴的配置,官方建議JDK版本在1.7以上!!!
Scala:Spark依賴的配置,建議版本不低于spark的版本。
Hadoop: 是一個分布式系統(tǒng)基礎(chǔ)架構(gòu)。
Spark: 分布式存儲的大數(shù)據(jù)進(jìn)行處理的工具。
zookeeper:分布式應(yīng)用程序協(xié)調(diào)服務(wù),HBase集群需要。
HBase: 一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)。
Hive: 基于Hadoop的一個數(shù)據(jù)倉庫工具,目前的默認(rèn)元數(shù)據(jù)庫是MySQL。
配置歷史服務(wù)器
vi mapred-site.xml
<!-- 歷史服務(wù)器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop:10020</value>
</property>
<!-- 歷史服務(wù)器web端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop:19888</value>
<property>
啟動歷史服務(wù)器:
sbin/mr-jobhistory-daemon.sh start historyserver
查看歷史服務(wù)器是否啟動
jps
查看jobhistory:
192.168.80.100:19888
配置日志聚集
日志聚集:應(yīng)用運行完成以后,將程序運行日志信息上傳到HDFS系統(tǒng)上
好處:可以方便的查看到程序運行詳情,方便開發(fā)調(diào)試
注:開啟日志聚集功能,需要重新啟動NodeManager、ResourceManager和HistoryManager
步驟:
關(guān)閉所有
sbin/mr-jobhistory-daemon.sh stop historyserver
sbin/yarn-daemon.sh stop nodemanager
sbin/yarn-daemon.sh stop resourcemanager
jps
vi yarn-site.xml
<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留時間設(shè)置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
<property>
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver
測試:
hadoop jar hadoop-mapreduce-examples~ pi 5 5
本文題目:hadoop單機及偽分布式
轉(zhuǎn)載來于:http://m.newbst.com/article6/jpjgig.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供電子商務(wù)、網(wǎng)站排名、企業(yè)建站、網(wǎng)站收錄、商城網(wǎng)站、服務(wù)器托管
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)