IT培訓(xùn)網(wǎng)
IT在線學(xué)習(xí)
隨著我們業(yè)務(wù)數(shù)據(jù)量越來越大,在一個操作系統(tǒng)管轄的范圍內(nèi)存不下了,那么就需要分配到更多的操作系統(tǒng)管理的磁盤中。但是這給我們帶來的一個問題就是,更多的操作系統(tǒng)非常不方便集中管理和維護。這時迫切需要一種系統(tǒng)來管理多臺機器上的文件,這就產(chǎn)生了分布式文件管理系統(tǒng)。HDFS只是分布式文件管理系統(tǒng)中的一種。
HDFS(Hadoop Distributed File System),它是一個分布式文件管理系統(tǒng)。一是,用于存儲文件,通過目錄樹來定位文件;其次,它是分布式的,由很多服務(wù)器聯(lián)合起來實現(xiàn)其功能,并且集群中的服務(wù)器有各自的角色。集群不一定是分布式的,但是分布式一定是集群。HDFS的設(shè)計適合一次寫入,多次讀出的場景,但不支持文件的修改。HDFS適合用來做數(shù)據(jù)分析,并不適合用來做網(wǎng)盤應(yīng)用。
下面我們來看下HDFS的優(yōu)缺點吧。
HDFS優(yōu)點:
(1) 高容錯性
a)每份數(shù)據(jù)都自動保存多個副本。HDFS正是通過增加副本的的方式來提高容錯性;
b)如果某個副本丟失,HDFS還可以自動恢復(fù)。
(2) 適合大數(shù)據(jù)處理
(a)數(shù)據(jù)規(guī)模:能夠處理數(shù)據(jù)規(guī)模達到GB、TB、甚至PB級別的數(shù)據(jù);
(b)文件規(guī)模:能夠處理百萬規(guī)模以上的文件數(shù)量,數(shù)量相當之大。
(3) 流式數(shù)據(jù)訪問,它能保證數(shù)據(jù)的一致性。
(4) 可構(gòu)建在廉價機器上,通過多副本機制,提高可靠性。這一點也是HDFS的突出優(yōu)勢,高性能的集群無需采用價格高昂的服務(wù)器,而是構(gòu)建在廉價的機器上呢。
HDFS缺點:
(1) 不適合低延時數(shù)據(jù)訪問,比如毫秒級的存儲數(shù)據(jù),是做不到的。
(2) 無法高效的對大量小文件進行存儲。
a) 存儲大量小文件的話,它會占用NameNode大量的內(nèi)存來存儲文件、目錄和塊信息。這樣是不可取的,因為NameNode的內(nèi)存畢竟是有限的。
b) 小文件存儲的尋址時間會超過讀取時間,它違反了HDFS的設(shè)計目標。
(3) 不支持并發(fā)寫入、文件隨機修改。
a) 一個文件只能有一個寫,不允許多個線程同時寫;
b) 僅支持數(shù)據(jù)append(追加),不支持文件的隨機修改。
>>本文地址:http://liujunjsxg.cn/zhuanye/2021/67401.html
聲明:本站稿件版權(quán)均屬中公教育優(yōu)就業(yè)所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
1 您的年齡
2 您的學(xué)歷
3 您更想做哪個方向的工作?