對你的業(yè)務(wù)來說,數(shù)據(jù)中心出現(xiàn)故障是災(zāi)難性的打擊。通常設(shè)計為三個或更多個數(shù)據(jù)中心,因為這樣成本比只有兩個數(shù)據(jù)中心低。在高峰期利用閑置的容量,而不是降低處理事務(wù)的速度。
要點:在實施災(zāi)難恢復(fù)時,利用三個或更多個實時數(shù)據(jù)中心的設(shè)計,可以降低災(zāi)難恢復(fù)的成本。在必要時,可以利用閑置容量滿足高峰期的需求。
對于超高速發(fā)展的公司來說,數(shù)據(jù)中心的擴展已經(jīng)成了最大的痛點之一。這是因為,計劃和建造數(shù)據(jù)中心的時間較長,而且它也是在高速發(fā)展階段我們最不愿意考慮的事情之一。但有時,最不愿意考慮的事情是對公司危害最大的事情。這個原則簡單地介紹了“如何”以及“為什么要擠分數(shù)據(jù)中心以應(yīng)對高速的發(fā)展。
首先,讓我們看一些基礎(chǔ)。為了實現(xiàn)故障隔離(有助于帶來高可用性)和事務(wù)的增長,我們想分別用原則8和原則9介紹的Y軸和Z軸擴展方法對數(shù)據(jù)進行分片。為了實現(xiàn)高可用性和事務(wù)的增長,我們想用原則7介紹的X軸擴展方法復(fù)制(或克隆)數(shù)據(jù)和服務(wù)。最后,我們假設(shè)0,你可能有一個無狀態(tài)系統(tǒng)或者能夠根據(jù)自己的有狀態(tài)需求進行設(shè)計,從而利用多個數(shù)據(jù)中心。正是數(shù)據(jù)和服務(wù)以及無狀態(tài)系統(tǒng)的分片、復(fù)制、克隆形成了分區(qū),從而使得我們能夠把數(shù)據(jù)中心分布到多個不同地點的站點中去。
如果我們沿z軸切分數(shù)據(jù)(參閱原則9),那么可以把數(shù)據(jù)放在離請求該數(shù)據(jù)的用戶較近的數(shù)據(jù)中心。如果要在切分數(shù)據(jù)時維持多租戶性,可以選擇離終端用戶近的數(shù)據(jù)中心。如果“原子”或“粒度”元素是一個公司,那么可以把數(shù)據(jù)中心放在所服務(wù)的公司附近(如果是家大型公司,至少要選擇距離該公司最大的辦公區(qū)較近的位置)。
首先,讓我們從三個數(shù)據(jù)中心入手,這時每個數(shù)據(jù)中心存放約33%的數(shù)據(jù)。我們將這三個數(shù)據(jù)集稱之為為A數(shù)據(jù)集、B數(shù)據(jù)集和C數(shù)據(jù)集。每個數(shù)據(jù)中心的數(shù)據(jù)集都進行了備份并平分為兩部分,而這兩部分的副本則分別存在其他兩個數(shù)據(jù)中心。假設(shè)采用Z軸拆分和X軸復(fù)制的方法復(fù)制數(shù)據(jù),那么A數(shù)據(jù)中心的客戶的50%的數(shù)據(jù)將存放在B數(shù)據(jù)中心,其另外50%的數(shù)據(jù)存放在C數(shù)據(jù)中心。任何一個數(shù)據(jù)中心出現(xiàn)故障,那么該數(shù)據(jù)中心50%的數(shù)據(jù)和相關(guān)事務(wù)都會被轉(zhuǎn)移到其他兩個數(shù)據(jù)中心。如果A數(shù)據(jù)中心出現(xiàn)故障,那么它509%的數(shù)據(jù)和相關(guān)事務(wù)會被轉(zhuǎn)移到B數(shù)據(jù)中心,另外50%將被轉(zhuǎn)移到C數(shù)據(jù)中心。如圖3-2所示。結(jié)果是所有站點總計存儲了20096的數(shù)據(jù),但是每個站點只保存數(shù)據(jù)總量的66%,因為每個站點存放了100%的主數(shù)據(jù)集副本(占該站點數(shù)據(jù)總量的3%)和其他兩個站點的50%的數(shù)據(jù)副本(總量占該站點數(shù)據(jù)量的33%,每個數(shù)據(jù)副本占數(shù)據(jù)量的165%)。
要了解這種配置為什么比兩個數(shù)據(jù)中心好,需要進行一些計算。假設(shè)你至少需要兩個數(shù)據(jù)中心,使業(yè)務(wù)能夠在地理位置上孤立的災(zāi)難事件中存活。如果我們有兩個數(shù)據(jù)中心,分別標記為A和B,那么你可能會用A數(shù)據(jù)中心進行1009%的操作,讓B數(shù)據(jù)中心作為熱備份。采用熱冷(或積極被動)配置,那么兩個數(shù)據(jù)中心都要具備10096的計算及網(wǎng)絡(luò)資源,這包括10096的Web和應(yīng)用服務(wù)器、10096的數(shù)據(jù)庫服務(wù)器和10096的網(wǎng)絡(luò)設(shè)備。兩個數(shù)據(jù)中心的電力需求相似,網(wǎng)絡(luò)連接相似。為了應(yīng)對高峰期激增的需求,每個數(shù)據(jù)中心可能需要稍大于100%的容量才行。假設(shè)每個數(shù)據(jù)中心需要110%的容量。無論何時為一個數(shù)據(jù)中心增加服務(wù)器,都要為另一個數(shù)據(jù)中心購買等量的服務(wù)器。也許為了安全復(fù)制數(shù)據(jù),你可能會采用專用線路連接兩個數(shù)據(jù)中心。同時運行兩個實時數(shù)據(jù)中心,那么在發(fā)生災(zāi)難時,在把所有處理轉(zhuǎn)移到備用數(shù)據(jù)中心之前,只有50%6的事務(wù)會失敗,但這種方法在預(yù)算和財務(wù)方面卻沒有什么優(yōu)勢。
但是,采用三個實時數(shù)據(jù)中心,成本就會下降。這是因為,在每個站點中,對于所有的非數(shù)據(jù)庫系統(tǒng),每個地方只需要150%的容量即可處理故障站點100%的交易。對于數(shù)據(jù)庫,雖然仍然需要200%6的存儲,但對于任何方法該成本都是必須的。電力和設(shè)備消耗也大約為單個站點的150%,不過我們需要的人員顯然要多一些,可能操作三個數(shù)據(jù)中心需要的人員要比操作一個數(shù)據(jù)中心的人員多1.5倍。唯一增加的是網(wǎng)絡(luò)設(shè)備,因為三個數(shù)據(jù)中心比兩個數(shù)據(jù)中心需要的網(wǎng)絡(luò)連接多兩條。
采用這種配置的一大好處是,能夠利用閑置容量創(chuàng)建測試(如負載測試和性能測試)區(qū)域,還能利用這些閑置資源應(yīng)對激增的需求。這種激增的需求隨時可能出現(xiàn)。我們可能要處理一些計劃外的壓力,也可能關(guān)系很好的個人或公司客戶得到了難以置信的病毒式的發(fā)展。那么可以先用為災(zāi)難恢復(fù)準備的容量處理交易,與此同時再采購新的設(shè)備。
我們提到過,運轉(zhuǎn)三個或更多個數(shù)據(jù)中心也有缺點。雖然我們確信三個站點都在實時工作,但是運轉(zhuǎn)這三個站點還需要額外的一些復(fù)雜工作。不過即使運轉(zhuǎn)兩個采用冷熱配置的數(shù)據(jù)中心,所需的復(fù)雜工作也不比前者需要的少。同步兩個站點是很難的,尤其是運維人員幾乎無法證明兩個站點中的某一個是否真能在必要時運行。不間斷地運轉(zhuǎn)三個數(shù)據(jù)中心雖然會更難一些,但也不是非常難。
雖然其他成本降低了,但是網(wǎng)絡(luò)傳輸成本的增長也非常快。在站點的全面連通圖中,每個新站點N+1都需要N條額外的網(wǎng)絡(luò)連接,其中N是之前站點的數(shù)目。網(wǎng)絡(luò)連接成本控制得好的公司,通常都會跟網(wǎng)絡(luò)傳輸供應(yīng)商談一個批量折扣,并且還可以脫離雙方的角色來充當(dāng)?shù)谌骄W(wǎng)絡(luò)傳輸供應(yīng)商,從而減少成本。
最后,我們預(yù)見到了多個實時網(wǎng)站制作站點的模型會造成人員及其附加的成本增加。如果數(shù)據(jù)中心很大,我們會把員工分配到數(shù)據(jù)中心附近,而不是遠程工作。即使沒有現(xiàn)場工作人員,也需要不時地到現(xiàn)場去,與第二供應(yīng)商一起工作,等等。附注欄“多個實時站點注意事項總結(jié)了實施多個實時站點的好處、缺點以及架構(gòu)方面需要考慮的要素。
本文地址:http://www.islandpacificappraisals.com//article/3461.html