新聞中心
大數(shù)據(jù)作為趨勢是任何一個企業(yè)都逃脫不了的宿命。大數(shù)據(jù)架構(gòu)和傳統(tǒng)架構(gòu)有著天壤之別。對于運維人員來說,大數(shù)據(jù)時代的運維應(yīng)該從傳統(tǒng)運維轉(zhuǎn)變到業(yè)務(wù)運維中去。然而對業(yè)務(wù)指標的監(jiān)控也區(qū)別于對機器的監(jiān)控,對業(yè)務(wù)的監(jiān)控和告警方式也千差萬別。企業(yè)運維人員該如何應(yīng)對呢?

創(chuàng)新互聯(lián)公司是創(chuàng)新、創(chuàng)意、研發(fā)型一體的綜合型網(wǎng)站建設(shè)公司,自成立以來公司不斷探索創(chuàng)新,始終堅持為客戶提供滿意周到的服務(wù),在本地打下了良好的口碑,在過去的10年時間我們累計服務(wù)了上千家以及全國政企客戶,如混凝土攪拌機等企業(yè)單位,完善的項目管理流程,嚴格把控項目進度與質(zhì)量監(jiān)控加上過硬的技術(shù)實力獲得客戶的一致稱譽。
在WOT2016互聯(lián)網(wǎng)運維與開發(fā)者大會現(xiàn)場,記者獨家專訪到極光推送高級Hadoop工程師許俊。讓我們通過本文一起了解,他是如何基于業(yè)務(wù)運維的思維導(dǎo)向,構(gòu)建極光推送大數(shù)據(jù)架構(gòu)下的運維監(jiān)控告警系統(tǒng)的;在許俊眼中,業(yè)務(wù)運維與傳統(tǒng)運維的理念和實現(xiàn)上又存在著哪些差異。
嘉賓簡介
許俊,高級Hadoop工程師,大數(shù)據(jù)平臺負責(zé)人。極光推送首位大數(shù)據(jù)工程師,見證并負責(zé)整個極光推送大數(shù)據(jù)平臺的演進,目前負責(zé)Hadoop平臺,流計算系統(tǒng)、圖數(shù)據(jù)庫服務(wù)、spark算法平臺等基礎(chǔ)數(shù)據(jù)平臺。在Hadoop運維開發(fā),大規(guī)模分布式計算平臺領(lǐng)域有著豐富經(jīng)驗。
可視化的智能運維監(jiān)控系統(tǒng)
極光推送的大數(shù)據(jù)平臺基于Hadoop集群實現(xiàn)。開始時由于部署在集群上的業(yè)務(wù)少、數(shù)據(jù)少,只采用了Zabbix對機器的基本指標進行監(jiān)控,往往要到第二天接到業(yè)務(wù)部門的反饋才知道集群出現(xiàn)了問題。
隨著業(yè)務(wù)程序越來越多,越來越復(fù)雜,對于指標的監(jiān)控要求也越來越高。發(fā)展到現(xiàn)在,簡單的指標監(jiān)控已經(jīng)不能滿足要求,出現(xiàn)了越來越多的類似 “平均值”、“***值”、“求和” 等更靈活多樣的需求。目前,極光推送采用的Grafana+Graphite+Statsd+Cabot這四個組件,構(gòu)建一套更通用并且功能更豐富的監(jiān)控系統(tǒng)。Graphite作為整個架構(gòu)的核心,提供源數(shù)據(jù)的接收、數(shù)據(jù)的存儲和數(shù)據(jù)展示功能;Statsd是作為數(shù)據(jù)的收集和數(shù)據(jù)的聚合,以及部分的數(shù)據(jù)負載均衡的操作;Cabot是作為整個系統(tǒng)的告警部分,來對接到極光推送自己的告警系統(tǒng);Grafana是作為監(jiān)控系統(tǒng)UI這一層的方案。
問題的監(jiān)控告警及風(fēng)險預(yù)估
日志收集方面,極光推送主要是用Flume。許俊談到,F(xiàn)lume除了能把原始的日志收集到ES外,還能將一些不是原始文件的日志對接到Kafka數(shù)據(jù)中心。另外,通過與Elasticsearch的配合,F(xiàn)lume能非常容易地把數(shù)據(jù)拉到想要的目的地,而不需要像使用ES時那樣,做一些具體的分析和挖掘,非常便于問題的發(fā)現(xiàn)。
對于如何進一步挖掘這些日志數(shù)據(jù)的價值,許俊談到,他們希望通過對業(yè)務(wù)指標的監(jiān)控,及時地發(fā)現(xiàn)并處理問題,甚至是對風(fēng)險進行預(yù)盼,這也是做監(jiān)控和告警的目的。實現(xiàn)這項工作,就需要更加詳盡地獲取或提供這些業(yè)務(wù)方面的指標,并將其對接到監(jiān)控系統(tǒng)里,并通過一些基本功能,讓業(yè)務(wù)方更加直觀、方便地掌據(jù)自身業(yè)務(wù)各方面的具體情況,從而有針對性地進行一些優(yōu)化和改進,比如及時進行擴容、負載均衡等。
以Redis內(nèi)存為例。傳統(tǒng)運維可能更加關(guān)注Redis使用內(nèi)存有沒有達到預(yù)設(shè)值,但通過現(xiàn)在這樣的系統(tǒng),業(yè)務(wù)方就能夠非常輕松地觀察到在整個歷史時間內(nèi),Redis實際占用內(nèi)存的增長速度和比例。這樣系統(tǒng)就能在它達到設(shè)置的預(yù)值之前發(fā)出預(yù)警,提前進行擴容方面的工作,而不是等到問題發(fā)生的那個時間點,為業(yè)務(wù)發(fā)展起到有力的支撐。
談及結(jié)合業(yè)務(wù)發(fā)展的需求對極光推送大數(shù)據(jù)架構(gòu)運維的優(yōu)化方向,許俊分享到,要整合大數(shù)據(jù)各組件的通用監(jiān)控告警系統(tǒng),實現(xiàn)與調(diào)度等系統(tǒng)的結(jié)合,從監(jiān)控、警告的階段演進為回復(fù)和預(yù)警。通用監(jiān)控告警系統(tǒng)就像JVM對于Java一樣,可以讓業(yè)務(wù)方基于一些通用的標準或者協(xié)議,把資料統(tǒng)一寫好,定制好,然后直接與監(jiān)控系統(tǒng)對接,來減少對各組件運維的重復(fù)勞動。
業(yè)務(wù)運維是對傳統(tǒng)運維的有效補充
在采訪***,許俊再次強調(diào),對大數(shù)據(jù)業(yè)務(wù)的監(jiān)控與傳統(tǒng)的機器和集群監(jiān)控一個顯著的區(qū)別是,運維關(guān)注的層面更高,關(guān)注點更超前,強調(diào)在問題出現(xiàn)之前,就去根據(jù)一些變化趨勢去發(fā)現(xiàn)問題,某種意義上來講,也是對傳統(tǒng)運維的一個有效的補充。
建議大家選用一些常見的、通用的運維監(jiān)控方案,比如基于運維人員非常熟悉的Python語言設(shè)計出的一些方案。因為Python的生態(tài)圈非常發(fā)達,這樣一方面可以以非常低的成本去維護和定制我們需要的組件,另外一方面也能夠讓我們非常容易的找到相應(yīng)的組件,來滿足我們的需求。
名稱欄目:極光推送許?。捍髷?shù)據(jù)架構(gòu)下的可視化智能運維監(jiān)控
標題來源:http://m.fisionsoft.com.cn/article/cogjiog.html


咨詢
建站咨詢
