我們的第一個問題是“有問題嗎”。如前所述,這種監(jiān)控指標并不多,大約三到七種,它們既能提供預(yù)測性的指標,又能提供當前的指標,用于說明即將有問題或現(xiàn)在已經(jīng)有問題了。由于我們要跟蹤的項目數(shù)量較少,所以數(shù)據(jù)保留應(yīng)該不是個大問題。最好能每分鐘或每小時繪制一次這種數(shù)據(jù),并至少與前兩周中相似時間內(nèi)的數(shù)據(jù)進行對比。如果今天是周二,那么我們可能需要前兩個周二的有價值的數(shù)據(jù)。也許我們只需保留前兩周的數(shù)據(jù)即可,但在我們匯總數(shù)據(jù)之前,也可以把范圍擴展到保留一個月的數(shù)據(jù)。從長遠來看,這些數(shù)據(jù)不會占用大量空間。此外,在預(yù)測與確定是否要發(fā)生問題或已經(jīng)發(fā)生了問題方面,這些數(shù)據(jù)會給我們節(jié)省很多時間。
接下來我們要問的問題是“哪里有問題”。我們的金字塔表明,盡管問題的具體程度在縮小,但數(shù)據(jù)量卻在增長。這應(yīng)該弓起我們的注意,因為我們要實現(xiàn)這一點,就需要更多的監(jiān)控指標。這種監(jiān)控指標的數(shù)量可能在10到100之間,遠遠多于我們原始的監(jiān)控指標。在非常大型的復(fù)雜的分布式系統(tǒng)中,監(jiān)控指標的數(shù)量可能更多。我們?nèi)匀恍枰c以前相似日期中的數(shù)據(jù)進行比較,理想狀況是分層對比。但在我們的匯總和歸檔/刪除策略中,我們需要激進得多。理想的做法是,我們首先按照小時匯總數(shù)據(jù),然后把數(shù)據(jù)納人均線的計算。也許我們會繪制和保留圖形,而隨著時間逐漸刪除原始數(shù)據(jù)。我們當然不想無限制地保存原始數(shù)據(jù),因為它們中的大多數(shù)再被用到的可能性很低,因而價值很低,成本卻很高。
最后,我們要問的是“什么問題”。我們所需的網(wǎng)站建設(shè)監(jiān)控指標數(shù)比上一個監(jiān)控方案又至少提高了一個數(shù)量級。我們會加上原始輸出日志、錯誤日志以及其他數(shù)據(jù)。這類數(shù)據(jù)增加得很快,尤其是在一個對話多的環(huán)境中。我們可能希望保留兩周的數(shù)據(jù),這里假設(shè)了從兩周的數(shù)據(jù)中能抓住大部分問題。也許對于保留什么和刪除什么你有更好的信息,但我們要強調(diào)的是,你不能要求隨時隨地都可以檢查任何指標,這會有損股東價值,因為這種要求幾乎需要無窮多的花費,而得到的回報卻非常非常低。
本文地址:http://www.islandpacificappraisals.com//article/3907.html