您所在的位置：首頁 > IT干貨資料 > 大數(shù)據(jù) > 【大數(shù)據(jù)基礎(chǔ)知識(shí)】大數(shù)據(jù)學(xué)習(xí)需要哪些課程

【大數(shù)據(jù)基礎(chǔ)知識(shí)】大數(shù)據(jù)學(xué)習(xí)需要哪些課程

發(fā)布：大數(shù)據(jù)培訓(xùn)
來源：大數(shù)據(jù)干貨資料
2019-12-18 10:38:49
閱讀()
分享

手機(jī)端入口

第一，編程語言

我們需要一定的編程語言基礎(chǔ)。大家可以先學(xué)習(xí)Java或Pathon。推薦大家學(xué)習(xí)Java，因?yàn)镴ava已經(jīng)流行20多年了，并且仍在廣泛使用中。

如果您有Java的基礎(chǔ)，就可以直接步入第二階段學(xué)習(xí)了。

第二，Linux操作系統(tǒng)

大數(shù)據(jù)項(xiàng)目最終要部署到集群運(yùn)行，而集群的部署自然離不開Linux操作系統(tǒng)。學(xué)習(xí)階段，我們通常會(huì)在虛擬機(jī)上進(jìn)行測試，所以我們需要掌握虛擬機(jī)的安裝配置。接下來就是Linux常用的操作命令了。

第三，Hadoop

這里面包括了兩塊內(nèi)容，一個(gè)是HDFS，分布式文件系統(tǒng)。我們需要掌握Hadoop集群的搭建，以及HDFS API的使用。另一個(gè)就是MapReduce。MapReduce實(shí)現(xiàn)大數(shù)據(jù)的離線計(jì)算。我們要掌握MapReduce的編程模式及典型案例。如果我們離線計(jì)算采用Spark實(shí)現(xiàn)，那么這一階段可以重點(diǎn)掌握HDFS。

第四，Zookeeper

Zookeeper作為一個(gè)開源的分布式服務(wù)框架，在很多地方都有它的身影。無論是在Hadoop集群的高可用，還是后面的Kafka中，Zookeeper都是比較重要的。

第五，Hive

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表，并提供類SQL查詢功能。它由Facebook開源，用于解決海量結(jié)構(gòu)化日志的數(shù)據(jù)統(tǒng)計(jì)。

大數(shù)據(jù)學(xué)習(xí)需要哪些課程？

第六，HBase

Apache HBase是一個(gè)開源的NoSQL數(shù)據(jù)庫，提供對(duì)大型數(shù)據(jù)集的實(shí)時(shí)讀/寫訪問。

HBase線性擴(kuò)展使得它能夠處理具有數(shù)十億行和數(shù)百萬列的大型數(shù)據(jù)集。

第七，Kafka

Kafka是一種分布式發(fā)布-訂閱消息系統(tǒng)，它最初由LinkedIn公司開發(fā)，之后成為Apache項(xiàng)目的一部分。它允許用戶進(jìn)行訂閱并將數(shù)據(jù)發(fā)布到任意數(shù)量的系統(tǒng)或?qū)崟r(shí)應(yīng)用程序中。

第八，Scala

Scala是一種多范式的編程語言，它集成面向?qū)ο缶幊毯秃瘮?shù)式編程于一身。Scala運(yùn)行于Java虛擬機(jī)上，可以和Java程序無縫混編，互相調(diào)用。

第九，Spark

Spark的核心部分有三塊，Spark Core 、Spark SQL、Spark Streaming。Spark Core是最基礎(chǔ)、最核心的部分，這里面有很多的算子(大家可以先理解為方法或函數(shù))。利用這些算子，可以方便快捷地進(jìn)行離線計(jì)算。Spark SQL，可以使用類sql語句處理結(jié)構(gòu)化數(shù)據(jù)。Spark Streaming則用來處理實(shí)時(shí)數(shù)據(jù)。

文章“【大數(shù)據(jù)基礎(chǔ)知識(shí)】大數(shù)據(jù)學(xué)習(xí)需要哪些課程”已幫助人

>>本文地址：http://liujunjsxg.cn/zhuanye/2019/48186.html

THE END

聲明:本站稿件版權(quán)均屬中公教育優(yōu)就業(yè)所有，未經(jīng)許可不得擅自轉(zhuǎn)載。