網(wǎng)站seo優(yōu)化HDFS架構(gòu)
日期 : 2020-09-19 19:01:56
HDFS架構(gòu)。首先,管理網(wǎng)絡(luò)上多臺計算機的存儲的文件系統(tǒng)稱為分布式文件系統(tǒng)。HDFS(Hadoop分布式文件系統(tǒng))就是其中之一,并且是專門為諸如MapReduce之類的分布式編程框架開發(fā)的文件系統(tǒng),用于執(zhí)行大規(guī)模數(shù)據(jù)處理。HDFS使用服務(wù)器/客戶端架構(gòu),每個HDFS群集主要由兩部分組成,一個是NameNode,另一個是DataNode。“名稱”節(jié)點主要控制HDFS文件系統(tǒng)的名稱空間,并維護存儲在整個集群中的文件系統(tǒng)樹。與元數(shù)據(jù)有關(guān)的所有服務(wù)也由名稱節(jié)點進程提供,因此它們也稱為元數(shù)據(jù)節(jié)點。“名稱”節(jié)點記錄文件名和拆分文件的塊列表之間的映射關(guān)系,以及塊和實際系統(tǒng)之間的對應(yīng)關(guān)系。“名稱”節(jié)點以快照的形式在本地文件系統(tǒng)中存儲映射關(guān)系,并在每次系統(tǒng)重新啟動時在本地加載映像,并獲取文件的存儲地址。在大多數(shù)情況下,名稱節(jié)點僅被動地接受來自數(shù)據(jù)節(jié)點的請求,執(zhí)行其任務(wù)并更新。數(shù)據(jù)節(jié)點是實際存儲文件的節(jié)點,通常一個物理系統(tǒng)對應(yīng)一個數(shù)據(jù)節(jié)點。通常,不執(zhí)行數(shù)據(jù)節(jié)點的磁盤陣列備份,因為文件被設(shè)計為備份到多個數(shù)據(jù)節(jié)點,而不是一個數(shù)據(jù)節(jié)點上的多個文件。HDFS數(shù)據(jù)塊備份和分發(fā)策略存儲一系列數(shù)據(jù)塊,每個文件都在其中劃分。除最后一個分段數(shù)據(jù)塊外,分段成文件的所有其他數(shù)據(jù)塊大小相同。為了提高容錯能力,通常以多份副本備份數(shù)據(jù)塊,同時用戶也可以自行配置數(shù)據(jù)塊的大小和備份副本的數(shù)量?;贖DFS的應(yīng)用程序可以通過配置文件更改參數(shù),創(chuàng)建數(shù)據(jù)備份時,用戶可以指定塊備份的數(shù)量或稍后對其進行修改,但是在HDFS中,每個文件一次寫入。名稱節(jié)點會定期在每個數(shù)據(jù)節(jié)點上執(zhí)行心跳檢查和數(shù)據(jù)庫快速狀態(tài)報告,以確定哪些數(shù)據(jù)節(jié)點當前可用以及哪些數(shù)據(jù)文件已存儲。通常,如果很長時間未收到數(shù)據(jù)節(jié)點的心跳,則系統(tǒng)會使它無效并重新啟動該節(jié)點以恢復(fù)數(shù)據(jù)從而重新加入系統(tǒng)。