新聞中心
關(guān)于可觀測能力,阿里云的思考與實踐
原創(chuàng) 精選
作者: 千山 2022-09-08 10:08:31
云計算
云原生
運維 可觀測讓云變得更易用

嘉賓丨周小帆
整理丨千山
審校 | 云昭
隨著云原生架構(gòu)開始落地實踐,應用架構(gòu)從單體系統(tǒng)逐步轉(zhuǎn)變?yōu)槲⒎?wù),越來越多企業(yè)意識到可觀測能力已經(jīng)成為云原生的基礎(chǔ)設(shè)施與必備能力。
那么,最近被頻頻提及的可觀測性,相比監(jiān)控、APM等名詞,區(qū)別在哪里?日前,51CTO特邀阿里云資深技術(shù)專家周小帆,圍繞可觀測技術(shù)的演進等議題進行了采訪。
51CTO:為什么需要可觀測性?它是云原生時代的必然產(chǎn)物嗎?
周小帆:可觀測性不是一個新鮮的名詞,云原生時代被再次提及是一個必然的結(jié)果。云原生架構(gòu)所倡導的微服務(wù)、DevOps模式,同時帶來了效率、可用性的提升與復雜度的增加,而增強可觀測性成了降低復雜度的唯一手段。傳統(tǒng)監(jiān)控手段僅僅能夠做到問題被動發(fā)現(xiàn),而可觀測性則要求不僅發(fā)現(xiàn)問題,更對于問題現(xiàn)象背后本質(zhì)給出明晰解釋。可觀測性背后指標、日志、事件、鏈路數(shù)據(jù),以及診斷工具的結(jié)合使用,為事前預防、事中處理、事后復盤提供了重要決策依據(jù)??捎^測性是基礎(chǔ)設(shè)施自動化的基石,優(yōu)秀的可觀測性是確保云原生紅利高效釋放的前提條件。
行業(yè)中時常會有“APM已死,可觀測已來”的論調(diào),我不太認同。相反,我認為APM的產(chǎn)品形態(tài)已經(jīng)是在傳統(tǒng)監(jiān)控基礎(chǔ)之上做到了”第一波進化“,首次實現(xiàn)了可觀測三大支柱(指標、鏈路、日志)在應用層相互融合的最佳實踐。
云原生時代的可觀測,是將APM產(chǎn)品中的一些經(jīng)典技術(shù)與理念,升級、延伸、泛化至整個云的技術(shù)架構(gòu)和組織,促進更緊密的協(xié)同、覆蓋更多場景、發(fā)揮更大價值。企業(yè)數(shù)字化轉(zhuǎn)型讓業(yè)務(wù)成敗與IT基礎(chǔ)設(shè)施穩(wěn)定性關(guān)聯(lián)愈發(fā)緊密,業(yè)務(wù)在線化凸顯了用戶體驗的重要性。正如其發(fā)展歷史,可觀測性不是一個新鮮概念,它原本就無處不在。而在云時代,隨著散落在各處的可觀測數(shù)據(jù)被不斷連接,小到問題定位發(fā)現(xiàn),安全風險識別,大到全局成本管理、穩(wěn)定性治理甚至是業(yè)務(wù)增長,都依賴于可觀測技術(shù)和數(shù)據(jù),可觀測性成為了度量企業(yè)IT治理水平的重要指標。
大家今天期望能夠得到的“可觀測產(chǎn)品”,實際上大部分是在上一代APM產(chǎn)品基礎(chǔ)之上的“第二波進化”,他們需要具備海量可觀測數(shù)據(jù)的存算能力,以應用為中心,向上關(guān)聯(lián)業(yè)務(wù)成敗與用戶體驗,向下覆蓋基礎(chǔ)設(shè)施與云服務(wù)監(jiān)控,一站式滿足除了IT穩(wěn)定性以外的多種核心訴求。
微服務(wù)下可觀測面臨的挑戰(zhàn)
51CTO:微服務(wù)下的可觀測能力建設(shè)有哪些難點?
周小帆:系統(tǒng)的可觀測與故障根因分析作為重要的運維場景,隨著系統(tǒng)架構(gòu)、資源單位、資源獲取方式、通信方式演進過程,遭遇巨大挑戰(zhàn)。而這些挑戰(zhàn),也在倒逼著可觀測相關(guān)技術(shù)發(fā)展,接下來我們以微服務(wù)舉例:
隨著Spring Cloud和Dubbo等常見微服務(wù)框架被廣泛應用,微服務(wù)架構(gòu)接受程度不斷提升,由最初以機器為核心的云服務(wù)器ECS上云,到以容器為核心的容器化云原生部署;為了更加敏捷,開始以應用為核心的微服務(wù)化。在云原生下的微服務(wù)可觀測主要面臨三個挑戰(zhàn):
- 發(fā)現(xiàn)難:從云服務(wù)器ECS到容器Kubernetes,微服務(wù)架構(gòu)復雜度提升,觀測對象復雜度提升,監(jiān)測數(shù)據(jù)覆蓋不全。
- 定位難:隨著多種治理能力深入,可觀測要求高,服務(wù)框架復雜度增加,技術(shù)門檻提升,數(shù)據(jù)本身復雜度提升,數(shù)據(jù)關(guān)聯(lián)性差。
- 協(xié)作差:隨著組織角色變化,可觀測不只是運維工作。
除此之外,還有微服務(wù)配置混亂,不好梳理;微服務(wù)應用上Kubernetes之后,出現(xiàn)線程池滿,卻找不到原因等一系列問題。因此,微服務(wù)可觀測要解決在客戶端輸入請求后,能感知其在各服務(wù)間進行采集、傳輸、處理、存儲的狀態(tài),進而預測、定位、解決系統(tǒng)運行過程中出現(xiàn)故障的問題。而這些問題,阿里巴巴在自身建設(shè)可觀測體系的過程中也都遭遇過。
阿里巴巴可觀測技術(shù)探索之路
51CTO:阿里內(nèi)部是基于什么訴求開始構(gòu)建可觀測能力?經(jīng)歷過哪幾次重要的迭代?
周小帆:作為最早進行云原生改造的互聯(lián)網(wǎng)企業(yè),阿里巴巴探索與實踐可觀測技術(shù)由來已久,并經(jīng)歷過以下幾個階段:
- 第一代 – 一站式:脫胎于阿里巴巴「鷹眼」產(chǎn)品的應用實時監(jiān)控服務(wù)ARMS誕生,為企業(yè)提供應用性能管理(APM)能力與前端監(jiān)控、云撥測等數(shù)字化體驗(DEM)能力;
- 第二代 – 連接應用:與應用托管與治理產(chǎn)品無縫集成,覆蓋觀測、安全、業(yè)務(wù)穩(wěn)定性等多個剛需場景。
- 第三代 – 超越一站式:1+1+1>3,讓阿里云積累的可觀測技術(shù)、開源可觀測事實標準、客戶存量與自研的可觀測數(shù)據(jù)資產(chǎn)做無縫融合,全面擁抱Prometheus、Grafana、Opentelemetry等開源標準,打造云原生時代完整可觀測數(shù)據(jù)生態(tài)與產(chǎn)品套件—阿里云可觀測套件。
第一代:脫胎于阿里巴巴「鷹眼」產(chǎn)品的應用實時監(jiān)控服務(wù)ARMS誕生
關(guān)鍵詞:從單體走向微服務(wù),自下而上的爆發(fā)式增長
2013年,隨著阿里巴巴業(yè)務(wù)快速發(fā)展,應用從單體走向微服務(wù),微服務(wù)體系催生出去中心化組織架構(gòu),產(chǎn)生自下而上的爆發(fā)式增長,并快速向DevOps模式演進,工程師們以自助模式向基礎(chǔ)軟件尋找更多答案。也是從這個階段開始,監(jiān)控走向“可觀測”的暢想已初備雛形。統(tǒng)一PaaS層快速催生統(tǒng)一可觀測基礎(chǔ)設(shè)施,但微服務(wù)下的可觀測能力建設(shè)初期遇到以下兩個難點:指標基數(shù)發(fā)散、微服務(wù)拆分過細、埋點精度不斷上升等因素帶來的“單筆交易可觀測成本”的急劇上升;三代探針技術(shù)與管控體系演進帶來的可觀測數(shù)據(jù)來源質(zhì)量問題,以及大規(guī)模探針管控與穩(wěn)定性保障。
關(guān)鍵詞:業(yè)務(wù)中臺背后的數(shù)字化運營,引領(lǐng)自上而下的穩(wěn)定性治理體系
與此同時,隨著業(yè)務(wù)中臺誕生,為了更好的應對季節(jié)性電商大促、多變的業(yè)務(wù)形態(tài),服務(wù)治理、混沌工程等產(chǎn)品誕生出來,碎片化的可觀測能力逐漸被整合在一起,引領(lǐng)自上而下的穩(wěn)定性治理體系,構(gòu)建以業(yè)務(wù)SLO為核心的穩(wěn)定性治理體系。通過日志鏈路指標和診斷工具的整合,阿里巴巴內(nèi)部APM產(chǎn)品的實用性得到大幅提升,被大家所熟知的「鷹眼」雛形初現(xiàn)。觀測能力和管控能力相融合:全鏈路灰度包括像全鏈路、灰度、全鏈路壓測、混沌工程這樣的復雜治理手段,包括像容量評估,微服務(wù)之間的強弱依賴評估這樣的分析場景,都充分集成到現(xiàn)有可觀測能力中。并在此階段以應用為中心,以管控集成、領(lǐng)域知識積累為主,讓數(shù)據(jù)在一些封閉場景內(nèi)能夠?qū)崿F(xiàn)價值最大化。
2017年,阿里巴巴將內(nèi)部錘煉多年的監(jiān)控工具對外服務(wù),應用實時監(jiān)控服務(wù)ARMS正式商業(yè)化。作為云原生一體化可觀測性平臺,ARMS提供全棧式性能監(jiān)控和端到端全鏈路追蹤診斷能力。同時,結(jié)合阿里云日志服務(wù)SLS的日志數(shù)據(jù)分析能力以及云監(jiān)控豐富的云服務(wù)與基礎(chǔ)設(shè)施監(jiān)控能力,用戶可以輕松完成用戶體驗、應用服務(wù)、云產(chǎn)品、容器的一站式監(jiān)控。
第二代:與應用托管與治理產(chǎn)品無縫集成,覆蓋觀測、安全、業(yè)務(wù)穩(wěn)定性等多個剛需場景
伴隨著企業(yè)加快數(shù)字化轉(zhuǎn)型步伐,導致IT系統(tǒng)更新頻繁,應用復雜度急劇升高。微服務(wù)、容器化等技術(shù)也逐漸在傳統(tǒng)企業(yè)中興起,而云服務(wù)也成為企業(yè)大規(guī)模運營數(shù)字業(yè)務(wù)所必備的技術(shù)服務(wù)。以用戶體驗為核心的應用性能管理(APM)受到廣泛關(guān)注,并在幫助企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型及智能化運維的道路上表現(xiàn)出巨大的價值。體驗為王時代催生向上覆蓋業(yè)務(wù)連續(xù)性,向下連接基礎(chǔ)設(shè)施穩(wěn)定性的一體化可觀測產(chǎn)品形態(tài)。
為了進一步提供更加完善的產(chǎn)品能力,繼2017年發(fā)布前端監(jiān)控,2021年阿里云推出云撥測產(chǎn)品。從用戶端角度來觀測系統(tǒng)可用性,為云上用戶提供開箱即用的企業(yè)級被動式及主動撥測式應用監(jiān)測解決方案,為用戶體驗優(yōu)化提供堅實、可靠的可觀測分析工具。
第三代:讓阿里云積累的可觀測技術(shù)、開源可觀測事實標準、客戶存量與自研的可觀測數(shù)據(jù)資產(chǎn)做無縫融合
可觀測需求在云原生時代的爆發(fā)式增長,以及基礎(chǔ)設(shè)施的標準化,使得可觀測開源、商業(yè)化項目不斷涌現(xiàn),國內(nèi)可觀測市場心智逐步形成,Prometheus、Grafana、Opentelemetry等可觀測標準也逐漸形成。也正基于此,阿里云接連推出Prometheus監(jiān)控服務(wù)、Grafana服務(wù)等可觀測產(chǎn)品,并于6月推出阿里云可觀測套件ACOS,進一步整合阿里云相關(guān)可觀測產(chǎn)品與場景,幫助企業(yè)提供更豐富、更完整的可觀測能力,同事大幅節(jié)省搭建可觀測系統(tǒng)的資源和運維開銷。
51CTO:目前使用阿里云可觀測產(chǎn)品套件的具體落地場景有哪些?
周小帆:得益于云原生開源生態(tài)蓬勃發(fā)展,工程師可以輕而易舉地建設(shè)一套監(jiān)控體系,比如使用Prometheus+Grafana搭建基礎(chǔ)監(jiān)控,或使用SkyWalking或Jaeger搭建追蹤系統(tǒng),亦或使用ELK或Loki搭建日志系統(tǒng)??捎^測技術(shù)百花齊放,導致目前面臨最大問題不在于功能缺失,而在于數(shù)據(jù)的割裂。對運維團隊而言,不同類型可觀測數(shù)據(jù)分散存儲在不同后端,排查問題仍需在多系統(tǒng)之間跳轉(zhuǎn),效率得不到保證。
今天的客戶,不得不在商業(yè)化可觀測產(chǎn)品、開源自建與存量的可觀測資產(chǎn)之間做出艱難選擇。
解決這種割裂的方式有兩種,一種方式是打造全自研的一站式可觀測產(chǎn)品,替換客戶現(xiàn)有方案。但歷史實踐告訴我們,一站式的方案往往會形成另一座數(shù)據(jù)孤島。
因此,我們走了另一條道路:向下,提供標準化數(shù)據(jù)接口,整合阿里云上碎片化的可觀測產(chǎn)品,并做到可以連接客戶存量的可觀測數(shù)據(jù)資產(chǎn);向上,提供可自由定制的產(chǎn)品界面,幫助客戶形成自己獨有的、1+1+1>3、無廠商鎖定的可觀測解決方案。阿里云可觀測套件,從可觀測體系設(shè)計視角,全面滿足企業(yè)不同觀測場景:
- 針對于基礎(chǔ)設(shè)施層
Prometheus監(jiān)控服務(wù)對包括云服務(wù)器ECS、容器Kubernetes、VPC在內(nèi)的各類云服務(wù)以及消息隊列等三方中間件進行觀測。并與各種云服務(wù)快速聯(lián)動,迅速進行擴縮容或負載均衡,從而更快的解決問題。
- 針對應用層
基于阿里云自研Java探針的應用監(jiān)控全面滿足應用監(jiān)控需求。相較于開源工具,在數(shù)據(jù)質(zhì)量、探針性能、分析能力等方面具有大幅強化。即使使用開源SDK或探針,也可以通過Opentelemetry將數(shù)據(jù)上報到應用監(jiān)控平臺。
- 針對用戶體驗層
過移動監(jiān)控、前端監(jiān)控、云撥測等模塊,全面覆蓋用戶在不同終端上的體驗與性能。
- 統(tǒng)一告警與管理
于各層采集的數(shù)據(jù)、告警信息進行統(tǒng)一告警以及根因分析,直接通過Insight呈現(xiàn)發(fā)現(xiàn)結(jié)果。并集成釘釘、企業(yè)微信等協(xié)作平臺更加高效地進行問題發(fā)現(xiàn)并處理跟蹤。
- 統(tǒng)一界面
不管是應用實時監(jiān)控服務(wù)ARMS、Prometheus監(jiān)控的上報數(shù)據(jù),還是日志服務(wù)、Elasticsearch、MongoDB等各種數(shù)據(jù)源,都可以通過全托管Grafana服務(wù)進行統(tǒng)一的數(shù)據(jù)可觀測數(shù)據(jù)呈現(xiàn),建立統(tǒng)一的監(jiān)控大盤。
阿里云對可觀測領(lǐng)域的思考
51CTO:阿里云可觀測產(chǎn)品相較市場上的同類產(chǎn)品,首創(chuàng)性和差異化優(yōu)勢在哪里?
周小帆:Gartner曾預測,2023年全球可觀測市場規(guī)模預計將達到164.94億美元。2024年將有30%企業(yè)會通過可觀測技術(shù)來提升數(shù)字化業(yè)務(wù)運行性能。熱潮之下,不管是老牌廠商、初創(chuàng)公司都在可觀測領(lǐng)域迸發(fā)出強勁的產(chǎn)品能力。相較市場上的同類產(chǎn)品,阿里云也有著自己思考與差異化優(yōu)勢。與眾多第三方服務(wù)或開源自建方案不同,阿里云可觀測套件實現(xiàn)多層次連接,全面打破數(shù)據(jù)孤島,挖掘數(shù)據(jù)背后的業(yè)務(wù)價值。
第一,向上形成兼容開源標準的統(tǒng)一觀測界面
與應用實時監(jiān)控服務(wù)ARMS的應用層監(jiān)控(APM)、前端體驗監(jiān)控(RUM)、基于eBPF技術(shù)的K8s監(jiān)控、云監(jiān)控等阿里云自研可觀測產(chǎn)品雙向連接,將可觀測數(shù)據(jù)與分析能力以開放標準(PromQL)、統(tǒng)一開放界面(Grafana)的形式提供給用戶,便于用戶的再集成與二次加工。ARMS也全面支持OpenTelemetry SDK進行自定義埋點的增強。
第二,向下連接阿里云可觀測數(shù)據(jù)存儲類產(chǎn)品
統(tǒng)一諸如日志服務(wù)SLS、Elasticsearch服務(wù)等可觀測數(shù)據(jù)存儲,以及散落在異構(gòu)數(shù)據(jù)存儲設(shè)施中(如Clickhouse、Lindorm、RDS)的可觀測數(shù)據(jù),實現(xiàn)可觀測數(shù)據(jù)源管理與異構(gòu)數(shù)據(jù)間無縫探索。
第三,橫向連接阿里云所有應用管控產(chǎn)品與中間件產(chǎn)品
阿里云所有應用管控(Serverless應用引擎SAE、容器服務(wù)ACK、函數(shù)計算FC、企業(yè)級分布式應用服務(wù)EDAS等)與中間件產(chǎn)品全面擁抱開源可觀測標準,并與可觀測套件進行連接。目前,已有超過50款阿里云云服務(wù)通過Prometheus標準進行觀測。
第四、全面擁抱開源
阿里云作為國內(nèi)可觀測領(lǐng)域的引領(lǐng)者,積極擁抱開源生態(tài),提供Prometheus監(jiān)控服務(wù)、Grafana服務(wù)、兼容OpenTelemetry、Skywalking等主流開源協(xié)議的鏈路追蹤服務(wù),共同形成新一代阿里云可觀測套件。使用標準化技術(shù)向下連接存量、碎片化可觀測數(shù)據(jù),向上幫助客戶形成自己獨有、無廠商鎖定的可觀測解決方案,實現(xiàn)真正的客戶成功。
第五、打造可觀測數(shù)據(jù)生態(tài)
自2017年與Elastic公司合作打造Elasticserach服務(wù)后,阿里云先后與Grafana Labs、博睿數(shù)據(jù)、諧云、袋鼠云等企業(yè)達成戰(zhàn)略合作,與阿里云自研可觀測體系無縫集成,把引領(lǐng)業(yè)界標準的優(yōu)秀產(chǎn)品與技術(shù)服務(wù)帶給阿里云的海量客戶,提供更豐富、優(yōu)質(zhì)、低門檻的可觀測服務(wù)與能力。
51CTO:能否結(jié)合具體用戶案例對于阿里云可觀測產(chǎn)品的部署和實踐效果予以說明。
周小帆:以2022年北京冬奧會舉例,作為歷史上第一屆核心系統(tǒng)全面上云的奧運會。依托阿里云的政務(wù)云與公有云的40多款產(chǎn)品與服務(wù),實現(xiàn)冬奧會官方App冬奧通、新聞發(fā)布會系統(tǒng)、比賽記時記分系統(tǒng)、運動員評論系統(tǒng)等30+應用全面上云。為了對云上資源進行多維度采集與觀測,滿足北京冬奧會賽事期間現(xiàn)場值班人員對云上資源整體運行風險的提前預知,以及故障時快速定位、診斷問題需求。阿里云依據(jù)冬奧組委業(yè)務(wù)特點,從三個層次對觀測指標進行選?。?/p>
- 應用層監(jiān)控
服務(wù)每秒接收的請求數(shù)、每個請求的耗時、失敗的請求數(shù)等應用層技術(shù)參數(shù)。
- 基礎(chǔ)資源監(jiān)控
云服務(wù)器ECS CPU利用率、內(nèi)存利用率、磁盤空間,POD CPU利用率、內(nèi)存利用率、磁盤空間,RDS CPU使用率、內(nèi)存使用率、IOPS使用率、磁盤空間,Redis CPU使用率、內(nèi)存使用率, CSG前端讀寫速率、共享緩存使用率、用戶態(tài)空間使用率、Trottling狀態(tài)。
- 網(wǎng)絡(luò)層監(jiān)控
帶寬情況、活躍連接數(shù)、限速丟包率、專線健康檢查丟包率等核心網(wǎng)絡(luò)參數(shù)。
基于以上需求,冬奧組委選擇阿里云可觀測套件來構(gòu)建整個可觀測體系。北京冬奧組委業(yè)務(wù)系統(tǒng)分為生產(chǎn)環(huán)境和測試環(huán)境,重點對生產(chǎn)環(huán)境進行監(jiān)控。在構(gòu)建信息系統(tǒng)總體監(jiān)控大盤時,首先基于Tag編寫PromSQL語法提取出生產(chǎn)環(huán)境的資源;同時考慮到ECS、RDS、Redis、SLB等資源數(shù)量很多,再重點對TOP 10資源使用情況進行觀測以便更好的發(fā)現(xiàn)風險,提升服務(wù)的可用性。同時,對于北京冬奧會賽事運行期間重要的業(yè)務(wù)系統(tǒng),像成績系統(tǒng)、評論員解說系統(tǒng)等每個關(guān)鍵信息系統(tǒng)都構(gòu)建單獨Grafana監(jiān)控大盤。對SLB流量、QPS使用率、HTTP請求不同返回狀態(tài)碼重點監(jiān)控。
由于冬奧通后臺應用為Java系微服務(wù)架構(gòu),且包含近千個Kubernetes Deployment應用實例,為了更好對容器服務(wù)集群及其上面運行的應用進行一體化監(jiān)控,冬奧組委基于應用實時監(jiān)控服務(wù)ARMS的Prometheus構(gòu)建容器集群監(jiān)控大盤。在同一張大盤上看到多個數(shù)據(jù)源,包括集群事件日志、基于ebpf無侵入式的應用指標、網(wǎng)絡(luò)指標等。冬奧組委通過一張大盤的關(guān)聯(lián)分析邏輯,從總覽到細節(jié),通過多數(shù)據(jù)源、多角度的可觀測能力進行不同維度的排查。
基于阿里云可觀測套件,冬奧組委在最短時間內(nèi)快速搭建一套完整的可觀測體系,為奧林匹克國際官網(wǎng)、奧林匹克頻道OCS、奧林匹克廣播服務(wù)公司OBS等,涵蓋比賽場館票務(wù)、新聞發(fā)布會系統(tǒng)、冬奧會官方App冬奧通、廣播數(shù)據(jù)推送、自動化媒體標注、國際實時信號轉(zhuǎn)播、數(shù)據(jù)倉庫、人員抵離ADS、網(wǎng)約車出行RHP等眾多業(yè)務(wù)場景保駕護航,保障北京冬奧會順利舉辦。
在歷經(jīng)全球級項目大考之外,阿里云可觀測產(chǎn)品矩陣憑借其完備的功能、良好的生態(tài)集成能力以及出色的成本優(yōu)勢,收獲了行業(yè)的認可。阿里云應用實時監(jiān)控服務(wù)ARMS在今年獲得了中國信通院的可觀測產(chǎn)品先進級認證,阿里云連續(xù)兩年進入Gartner APM與可觀測魔力象限,今年更是成為了唯一入選的中國企業(yè)。在Forrester的容器、Serverless產(chǎn)品能力評測中,可觀測相關(guān)的產(chǎn)品能力分數(shù)也得到了滿分認證。
可觀測領(lǐng)域七大技術(shù)與應用趨勢
51CTO:可觀測能力將來有標準化的可能嗎?從監(jiān)控到可觀測性,運維轉(zhuǎn)型的整體趨向呈現(xiàn)什么樣的態(tài)勢?
周小帆:在可預見的未來,可觀測領(lǐng)域?qū)⑿纬梢欢ㄒ饬x的標準化。各大廠商、開源項目都在推進標準的統(tǒng)一。首先是指標,Prometheus作為云原生時代指標數(shù)據(jù)標準已經(jīng)形成共識;鏈路標準也隨著OpenTracing和OpenTelemetry的推行而逐漸占據(jù)主流;在日志領(lǐng)域,雖然其數(shù)據(jù)結(jié)構(gòu)化程度較低難以形成數(shù)據(jù)標準,但采集存儲分析側(cè)涌現(xiàn)出Fluentd、Loki等開源新秀;另一方面,Grafana作為可觀測數(shù)據(jù)展示標準也愈加明朗。但標準雖然統(tǒng)一,但我們也要看到基于統(tǒng)一標準的開源撕裂程度比想象得更為慘烈。
同時,在標準化之外,我們看到可觀測領(lǐng)域可預見的七大技術(shù)與應用趨勢:
- 構(gòu)建以應用為中心的觀測視角:以應用為單位關(guān)聯(lián)指標、鏈路與日志。利用逐漸成熟的eBPF探針技術(shù)快速實現(xiàn)全局應用可觀測,無侵入應用探針為主 + OpenTelemetry為輔實現(xiàn)代碼級可觀測能力。
- 聚焦業(yè)務(wù)成敗與用戶體驗:精準度量用戶體驗,關(guān)聯(lián)業(yè)務(wù)成敗。前后端可觀測數(shù)據(jù)打通,實現(xiàn)業(yè)務(wù)全鏈路快速問題定位。
- 連接應用管控鏈路:與運維變更管控體系緊密銜接,實現(xiàn)監(jiān)-管-控一體化能力。融合安全治理與可觀測技術(shù),全面降低IT風險。集成混沌工程、性能測試,數(shù)據(jù)驅(qū)動穩(wěn)定性治理常態(tài)化。
- 打破部門墻,建立高效協(xié)同機制:建設(shè)以SLO驅(qū)動的應急響應體系,引入ChatOps機制,實現(xiàn)去中心化協(xié)同。借助數(shù)據(jù)標簽體系快速構(gòu)建團隊及個人可觀測視圖。
- 標準化指標監(jiān)測體系建設(shè):圍繞Prometheus生態(tài)構(gòu)建新一代可觀測基礎(chǔ)設(shè)施,擁抱分布式云架構(gòu),建設(shè)全局指標監(jiān)控體系。聚焦指標質(zhì)量而非數(shù)量,持續(xù)治理監(jiān)控體系的有效性。
- 統(tǒng)一可觀測界面:“Unify your data, not your database”,借力Grafana可視化體系實現(xiàn)異構(gòu)存儲的統(tǒng)一呈現(xiàn)。
展望未來,阿里云認為“觀測力”將成為云計算時代每個工程師的核心競爭力。阿里云上越來越多云服務(wù)通過主流開源標準將自身運行狀態(tài)充分白盒化,更好地被云服務(wù)使用者集成。工程師們將逐步采納Monitoring as code的方式,實現(xiàn)可觀測左移。相比以往,可觀測能力構(gòu)建將成為編寫業(yè)務(wù)邏輯與實施運維自動化的關(guān)鍵環(huán)節(jié)。
作為管理者,通過可觀測技術(shù)輔助研發(fā)運維的效能管理、IT成本分析將逐漸成為必備技能;同時管理者也會逐步借力可觀測數(shù)據(jù),數(shù)字化驅(qū)動團隊成員之間的協(xié)作與溝通,以及用于識別企業(yè)安全風險。
萬物皆可云的時代,可觀測性讓云變得更易用??捎^測的巨大價值正在逐步兌現(xiàn),我們從監(jiān)控走進可觀測,但不僅僅止步于觀測,分析、洞察并實現(xiàn)高質(zhì)量的決策與業(yè)務(wù)創(chuàng)新才是觀測的最終目的,阿里云也將不斷提供這個領(lǐng)域優(yōu)質(zhì)的產(chǎn)品與服務(wù)。
嘉賓介紹
周小帆,阿里云資深技術(shù)專家,目前就職于阿里云云原生應用平臺,負責阿里集團APM系統(tǒng)鷹眼(EagleEye)與阿里云應用實時監(jiān)控服務(wù)(ARMS)等技術(shù)產(chǎn)品。在可觀測相關(guān)領(lǐng)域有超過九年的實戰(zhàn)經(jīng)歷,在分布式鏈路追蹤、日志處理平臺和監(jiān)控告警系統(tǒng)的建設(shè)與應用有豐富經(jīng)驗。其他技術(shù)相關(guān)的經(jīng)驗包含微服務(wù)治理、分布式數(shù)據(jù)處理、應用PaaS等。
欄目介紹
“T前線”是51CTO內(nèi)容中心專為技術(shù)人物開設(shè)的深度訪談欄目之一,通過邀請技術(shù)界內(nèi)的業(yè)務(wù)負責人、資深架構(gòu)師、資深技術(shù)專家等對當下的技術(shù)熱點、技術(shù)實踐和技術(shù)趨勢進行深度的解讀和洞察,推動前沿科技的傳播與發(fā)展。
網(wǎng)站標題:關(guān)于可觀測能力,阿里云的思考與實踐
文章分享:http://m.fisionsoft.com.cn/article/cosspdj.html


咨詢
建站咨詢
