IT培訓(xùn)網(wǎng)
IT在線學(xué)習(xí)
第一,編程語言
我們需要一定的編程語言基礎(chǔ)。大家可以先學(xué)習(xí)Java或Pathon。推薦大家學(xué)習(xí)Java,因?yàn)镴ava已經(jīng)流行20多年了,并且仍在廣泛使用中。
如果您有Java的基礎(chǔ),就可以直接步入第二階段學(xué)習(xí)了。
第二,Linux操作系統(tǒng)
大數(shù)據(jù)項(xiàng)目最終要部署到集群運(yùn)行,而集群的部署自然離不開Linux操作系統(tǒng)。學(xué)習(xí)階段,我們通常會(huì)在虛擬機(jī)上進(jìn)行測試,所以我們需要掌握虛擬機(jī)的安裝配置。接下來就是Linux常用的操作命令了。
第三,Hadoop
這里面包括了兩塊內(nèi)容,一個(gè)是HDFS,分布式文件系統(tǒng)。我們需要掌握Hadoop集群的搭建,以及HDFS API的使用。另一個(gè)就是MapReduce。MapReduce實(shí)現(xiàn)大數(shù)據(jù)的離線計(jì)算。我們要掌握MapReduce的編程模式及典型案例。如果我們離線計(jì)算采用Spark實(shí)現(xiàn),那么這一階段可以重點(diǎn)掌握HDFS。
第四,Zookeeper
Zookeeper作為一個(gè)開源的分布式服務(wù)框架,在很多地方都有它的身影。無論是在Hadoop集群的高可用,還是后面的Kafka中,Zookeeper都是比較重要的。
第五,Hive
Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表,并提供類SQL查詢功能。它由Facebook開源,用于解決海量結(jié)構(gòu)化日志的數(shù)據(jù)統(tǒng)計(jì)。
第六,HBase
Apache HBase是一個(gè)開源的NoSQL數(shù)據(jù)庫,提供對(duì)大型數(shù)據(jù)集的實(shí)時(shí)讀/寫訪問。
HBase線性擴(kuò)展使得它能夠處理具有數(shù)十億行和數(shù)百萬列的大型數(shù)據(jù)集。
第七,Kafka
Kafka是一種分布式發(fā)布-訂閱消息系統(tǒng),它最初由LinkedIn公司開發(fā),之后成為Apache項(xiàng)目的一部分。它允許用戶進(jìn)行訂閱并將數(shù)據(jù)發(fā)布到任意數(shù)量的系統(tǒng)或?qū)崟r(shí)應(yīng)用程序中。
第八,Scala
Scala是一種多范式的編程語言,它集成面向?qū)ο缶幊毯秃瘮?shù)式編程于一身。Scala運(yùn)行于Java虛擬機(jī)上,可以和Java程序無縫混編,互相調(diào)用。
第九,Spark
Spark的核心部分有三塊,Spark Core 、Spark SQL、Spark Streaming。Spark Core是最基礎(chǔ)、最核心的部分,這里面有很多的算子(大家可以先理解為方法或函數(shù))。利用這些算子,可以方便快捷地進(jìn)行離線計(jì)算。Spark SQL,可以使用類sql語句處理結(jié)構(gòu)化數(shù)據(jù)。Spark Streaming則用來處理實(shí)時(shí)數(shù)據(jù)。
>>本文地址:http://liujunjsxg.cn/zhuanye/2019/48186.html
聲明:本站稿件版權(quán)均屬中公教育優(yōu)就業(yè)所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
1 您的年齡
2 您的學(xué)歷
3 您更想做哪個(gè)方向的工作?