新聞中心
顯峰,藍海訊通(包含SaaS級OneAPM與企業(yè)級blueware兩塊業(yè)務品牌)的***運營官,10年IT領域經驗,知名技術顧問;MongoDB中文社區(qū)的發(fā)起人,并作為AdMaster***布道師且共同創(chuàng)建了北京研發(fā)中心,曾任積木盒子技術副總裁,擁有悉尼大學碩士學位及哈爾濱工業(yè)大學學士學位。

[[123883]]
“我跨的領域稍微多,但大部分時間都在做技術管理的工作?!?/em>
與顯峰認識已經有很長的一段時間,記得曾經在AdMaster的時候與顯峰做了個關于敏捷的專訪,當時他一直強調國內在管理方面的落差,很少有非常資深的人去做這方面的工程化。也許是由于長期的沉淀和感悟,顯峰認為技術管理交流溝通才是核心價值,能夠快速提高初級程序員的成長。也是如此,顯峰在AdMaster一直負責做技術管理,團隊組建和培訓員工。后來從AdMaster離開后到積木盒子及現(xiàn)在的藍海訊通同樣繼續(xù)著技術管理的工作。
今年算是APM的元年,您認為在國內APM一下子蹦進人們的視野里,從而受到業(yè)界關注的主要原因在哪里?在管理方面會有哪些改變?
程顯峰:先談談APM是什么?,F(xiàn)在大家都在談應用性能管理,實際上國內對這個認識還是很粗淺。APM在中國算是一個元年,但是美國很多互聯(lián)網化的企業(yè)在2008年已經在使用,比如像IBM、戴爾、惠普這些大企業(yè)都有自己的APM解決方案。實際上它并不是一個新的概念,為什么國內現(xiàn)在才被大家所認識到?我覺得很大的原因是中國的軟件生命周期短導致的,國外的一個軟件可能有五年,十年,十五年的生命周期,它的業(yè)務系統(tǒng)也非常穩(wěn)定。但是在國內大部分軟件就沒有那么長。在這種情景下,采用服務性質的軟件的動力是明顯不足的。比如你買了一輛車準備開30年,平時肯定會去精心的保養(yǎng)。但是這輛車只準備開一年,可能就不會太注重保養(yǎng),或者保養(yǎng)很差。APM就像汽車領域高效的保養(yǎng),當系統(tǒng)出現(xiàn)問題時能夠很快的發(fā)現(xiàn)和報警。
大家經常會問一個問題,APM是不是跟監(jiān)測一樣?其實APM跟監(jiān)測的性質不一樣,監(jiān)測能發(fā)現(xiàn)問題,并不能診斷問題,但它在某種程度上確實有監(jiān)測的效果。就像一個體溫計,知道你這個人體溫39度已經發(fā)燒了,卻無法斷定你問題出在哪里。我們可以把APM看成CT機,它知道你哪一個部位出現(xiàn)了什么問題,能清晰地定位出來。
再看運維,目前Operation是非常缺乏的。很多IT企業(yè)往往是重研發(fā)輕運維,主要是系統(tǒng)生命周期非常短,所以運維投入不夠。
國外的情形就像飛機一樣,正常運作能達到十幾年,極其注重安全和穩(wěn)定性,所以特別的精心地保養(yǎng),每年的費用也很高,對于國內的大型企業(yè)也是這樣子,生產系統(tǒng)運營時間長。實際上國內金融、電信、能源,這些行業(yè)客戶很早就應用APM。所以說今年APM被業(yè)界所接受,那是互聯(lián)網化的一個結果,并不是很早的一個概念。
為什么APM越來越重要?這其實要從IT系統(tǒng)運維面臨幾個困境說起:
***個,系統(tǒng)越來越復雜,越來越分布式。
第二個,有很多遺留的系統(tǒng),要兼顧這些五年、十年前的系統(tǒng)正常運行,這就給運維造成很大的壓力。
第三個,業(yè)務始終是動態(tài)變化的。
大家都知道,IT公司運維每天都在應對不同的變化。在傳統(tǒng)運維上有很多職責,在這種復雜的情形下會導致被拖死在一個泥潭當中,無法抽身去做一些更有附加值的事情。在美國運維叫IT Operation Analysis,也稱為ITOA(IT運營系統(tǒng)分析),那是基于大數(shù)據對IT的配置、性能、數(shù)據泄露、合規(guī)性等所有的指標都有一個整體的分析。
從分析的角度去理解非常好,能解決大量的問題。問題是你沒有APM,分析需要的數(shù)據就無從而來。數(shù)據分析從傳統(tǒng)意義上基本是來源于三個方面:基于網絡的數(shù)據、基于日志的數(shù)據、基于APM的數(shù)據。廣義上這幾方面都是APM行業(yè),但是如果從狹義上去理解這種基于探針(Agent)技術的APM,它所提供的數(shù)據是網絡和日志幾乎無法比擬的。
***,先說日志。如果開啟的日志比較多,你會淹沒在大量的日志事件和噪聲當中,提取非常困難。但是開啟的級別非常低就會發(fā)現(xiàn)問題根本無法定位。實際上日志的力度非常難以控制,而且也是一個事后分析的方式,延后性比較突出和明顯。
第二,網絡雖然有全量數(shù)據,ITOA運行在比較重要的網絡真實結構圖中,而網絡出現(xiàn)故障后診斷時最重要的指標為MTTR(平均恢復時間)??墒蔷W絡故障對平均修復時間來講,幫助的意義并不大,只能定位到機器或者HOST這種級別,實際上對診斷問題的幫助從現(xiàn)在的復雜程度看定位不清晰。所以,現(xiàn)在要提升到應用級別的定位才能解決問題。
APM根據ITOA這種理念,包括可行性分析、性能等所有的維度都列出來,是在所有的ITOA成分里面最難的。一個可用性分析的監(jiān)控自己就可以搞定,不過關于Performance的實現(xiàn)。有第三方機構在美國做了一個深入的調研,大家一致公認Performance性能是ITOA里頭***有技術含量的。所以,當它比較難以實現(xiàn)的時候,我認為應該找一個合作伙伴,就像硬件里頭最難的芯片,IT公司很少自主研發(fā)芯片,大家都通過合作的方式,節(jié)省開發(fā)成本以及人力投入。
更多時候大家需要轉變的是思路,從而獲取整體上IT運營價值,而不是從某種緯度上去節(jié)省費用,應當從長遠的角度分析是否具有投入的價值。
根據你這么多年的管理經驗,你認為一個優(yōu)秀的團隊應該具備哪些能力和特點呢?
程顯峰:首先我覺得作為一個技術公司來講,技術能力無疑還是公司最重要的能力。而我們在做應用性能管理這方面跟其他企業(yè)完全不一樣的地方在于業(yè)務跟它的技術是完全合二為一的,所以技術就是我們最核心的業(yè)務。說到技術能力,我們比較自豪的是用很短的時間在大型商業(yè)系統(tǒng)、核心系統(tǒng)里面穩(wěn)定地運行。并不會拿一些終端客戶的數(shù)據來替代我們在核心系統(tǒng)里的數(shù)據。同時,我們會主動要求客戶做非常嚴格的POC測試,會幫助他制定測試標準和建議,客戶也會公開公正地去做比較。所以,我們在技術上表現(xiàn)也是非常有信心。
另一個就是服務客戶能力。為什么國外的APM在國內很難用?網絡原因是一方面,更重要的是我覺得對客戶服務和創(chuàng)造價值的一個能力。我們有非常專業(yè)的顧問團隊,能幫助客戶極快地解決他們的問題。從長期來看我更希望它是一個非常自省、有內生改進動力的這么一個團隊。包括在整體我們對APM市場的認識,以及預見能力也是非常重要的。
今年國內雖說APM是一個元年,但是APM的發(fā)展趨勢,我覺得我們的團隊對這方面的認識還是非常深刻的。OneAPM并不是隨著潮流冒出來,畢竟我們在之前的BlueWare中給企業(yè)級做了很多應用性能管理,積累了很多年的經驗。所以我們在這個行業(yè)里面有深刻的行業(yè)理解,這也是我們核心的能力。
那么在如今的云計算的背景下,運維及運營模式會發(fā)生哪些改變呢?
程顯峰:首先運營,這是兩方面的事情。對于OneAPM,它首先是SaaS模式的一個服務,而對我們自身來講,是要把傳統(tǒng)APM云化的一個表現(xiàn)。另一方面,對于我們客戶來講他們也面臨很多云化的事情。所以,未來會有越來越多的企業(yè)機構都會把自己傳統(tǒng)的業(yè)務放到云端。
云化對APM產品來講是一個非常大的機遇,這也是美國APM技術在2008年發(fā)展起來的一個重要原因,像New Relic、AppDynamics的發(fā)展,都是借助云計算大勢起來的。其中的原因是客戶使用云后,摒棄掉很多傳統(tǒng)運維的習慣,這個時候能更好的適應現(xiàn)代化工具和新的業(yè)務。云簡化了運維,強化它的彈性和管理,這些都是APM特別適合的地方。包括云安全策略以及整體上云給大家?guī)淼姆绽砟?,APM的思想與云具有天生的融合。包括現(xiàn)在移動互聯(lián)網都是APM特別適合的一個場景。我們也跟國內幾乎所有的云廠商有這種合作,相當于把我們的產品跟他的客戶緊密地結合在一起,為其客戶創(chuàng)造非常大的增值的效應。
對于運維,***個是思維上要有一個非常大的轉變。最近亞馬遜在美國開了Reinvent大會,公布它每年Deploy次數(shù)是五千萬次,雖然很多人都不相信這個數(shù)字,那么五百萬次應該是有的。如果是五百萬次部署,那也是遠遠超出了很多人想象能力,對于運維人員更是***的挑戰(zhàn)。好多運維人員給一年的時間部署五百萬次也沒法完成。
這時候問題發(fā)生在哪兒呢?其實亞馬遜的運維是通過技術團隊來完成的,運維團隊只提供一些工具,極其自動化。如果大家真正使用云的話,運維團隊的角色和思維方式都要發(fā)生這種轉變,我覺得亞馬遜是比較典型的例子。
我們國內運維人員都在做常規(guī)的上線和故障診斷這些事情,國外運維人員不做這些事情,至少有很多先進公司的運維人員是不做這些事情的,這是個趨勢。要求你能開發(fā)工具,以及對架構進行非常良好的設計。所以這對運維人員要求高,同時也需要運維人員要考慮的問題。
現(xiàn)在大家討論的東西很多關于DevOps、Operation這樣的話題,實際上這些話題做到***你就會發(fā)現(xiàn)還是回到傳統(tǒng)運維做的這些事情。新的運維模式有人提出這樣的觀點,稱ETA(Environment,Tools,Automation=環(huán)境工具自動化)。運維肯定會有這樣的工作職責和思維上的轉變,對他們來說才會從本質上去擁抱新一代技術。其實運維最近這些年的技術更迭非???,之前幾年我們很少聽到大規(guī)模的自動化運維。
現(xiàn)在自動化程度不斷在提高,對性能管理要求也在不斷提高,這個實際上對運維人員是個挑戰(zhàn),同時也是一個機會。
像惠普、戴爾他們都在做監(jiān)測管理,但主要還是針對大企業(yè)。
程顯峰:對,不過通過Gartner報告來看,只針對大企業(yè)是必然會失敗的。從互聯(lián)網市場上來講,簡單有幾點,***他們不可能做出用戶友好的成品。第二個是他們這種部署的方式和交付的方式完全沒有辦法實現(xiàn)互聯(lián)網。第三,他們適應互聯(lián)網的動作太慢,他們在這個市場上必然是份額逐漸減少,然后漸漸地失掉市場份額。
如今的移動互聯(lián)網的火爆,帶動了創(chuàng)業(yè)團隊雨后春筍般涌現(xiàn),你認為會不會有新的競爭者進入到APM這個領域來?
程顯峰:首先APM本身就是一個小眾的市場,玩家不會很多,即便在美國這種成熟的市場,它的玩家也就是***。另外,APM技術門檻相對來講比較高,而且需要長期通過實踐驗證的一個技術,即便你開發(fā)出來,很多人也不會相信你能夠達到一個良好的效果。畢竟你需要考慮到生長和集成,對于后進的玩家有很多不利的因素。但是APM的市場是非常巨大的,我們還是希望有更多的Competitor進入到這個市場。
現(xiàn)在最熱的詞就是云計算和大數(shù)據,兩者之間哪一樣都能離不開性能,我們在性能做到提升,這都是本質的一個提升。當性能翻倍了以后,它原來很多不能的事情就變成可能了。比如說有時候經常有比較復雜的廣告算法,不能在規(guī)定時間內算完。但是性能提高了以后,它就能算完。
表面上是看性能,實際上對業(yè)務的促進是極其巨大的。所以我覺得這個市場前景還是非常的廣闊,我們希望有更多的玩家進入到這個市場,踏踏實實為客戶服務。畢竟現(xiàn)在還屬于初期,市場需要共同培育成熟的這么一個過程。
目前APM隨著PaaS平臺的發(fā)展將面臨著一個很大的市場,您認為在業(yè)務方面有什么影響?
程顯峰:我應該是國內接觸PaaS比較早的,當時國內的PaaS環(huán)境還沒有成熟。且國內云計算廠商沒有提供相應的PaaS平臺,所以業(yè)內對國內的PaaS平臺現(xiàn)在持一個比較悲觀的看法,至少PaaS在國內兩三年左右不會有大的動作。如果說PaaS普及后, 是能夠給APM這個產品能帶來巨大的價值。尤其是國外的Heroku與New Relic這種非常典型的強強聯(lián)合的合作,國內缺少這樣的平臺。
當然,國內今后有這樣的平臺,我們非常愿意跟他們嘗試著深入合作。PaaS肯定對APM產品有一個巨大的推動效應,但是我們整體上來看國內還是處于一個IaaS的階段。PaaS從市場戰(zhàn)略上還是稍遠一點。
當前文章:專訪程顯峰:APM大行其道折射出運維與管理之痛
標題URL:http://m.fisionsoft.com.cn/article/djjdgss.html


咨詢
建站咨詢
