新聞中心
SDN云數(shù)據(jù)中心網(wǎng)絡(luò)異常行為的智能處理實(shí)踐
作者:陳健林 劉瑛 2017-11-20 14:25:30
云計(jì)算
數(shù)據(jù)中心 云數(shù)據(jù)中心的網(wǎng)絡(luò)異常行為不僅對(duì)網(wǎng)絡(luò)設(shè)備造成嚴(yán)重業(yè)務(wù)負(fù)荷,同時(shí)也顯著影響云用戶使用感知。云計(jì)算環(huán)境中的共享資源模式和云用戶迥然不同的業(yè)務(wù)形態(tài),使得云網(wǎng)絡(luò)分析和異常行為定位極為困難。

摘要:云數(shù)據(jù)中心的網(wǎng)絡(luò)異常行為不僅對(duì)網(wǎng)絡(luò)設(shè)備造成嚴(yán)重業(yè)務(wù)負(fù)荷,同時(shí)也顯著影響云用戶使用感知。云計(jì)算環(huán)境中的共享資源模式和云用戶迥然不同的業(yè)務(wù)形態(tài),使得云網(wǎng)絡(luò)分析和異常行為定位極為困難。南方基地移動(dòng)云網(wǎng)絡(luò)運(yùn)維團(tuán)隊(duì)針對(duì)云數(shù)據(jù)中心的網(wǎng)絡(luò)異常行為進(jìn)行特征提取和分析,并基于移動(dòng)云sdn數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)和原理進(jìn)行深度剖析,總結(jié)出一套“流表流量粗細(xì)結(jié)合”的分析策略,成功實(shí)現(xiàn)低成本高效率的網(wǎng)絡(luò)異常行為發(fā)現(xiàn)。同時(shí)基于devops理念,制定了一套網(wǎng)絡(luò)異常行為自動(dòng)化檢測(cè)和封堵的智能系統(tǒng),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)異常行為的快速處理。
Introduction
前言
在集團(tuán)公司的大連接戰(zhàn)略中,云管端服務(wù)體系是數(shù)字化轉(zhuǎn)型的關(guān)鍵技術(shù)。作為云管端體系的重要環(huán)節(jié),云計(jì)算得到大力發(fā)展。移動(dòng)云(ecloud.10086.cn)是總部級(jí)公有云,其在南方基地節(jié)點(diǎn)具備2400臺(tái)物理主機(jī)、450臺(tái)網(wǎng)絡(luò)設(shè)備的硬件規(guī)模。移動(dòng)云采用前沿的openstack+SDN架構(gòu),為客戶提供快捷、可靠的云服務(wù)。為實(shí)現(xiàn)海量的不同用戶之間相互隔離,SDN在原有基礎(chǔ)網(wǎng)絡(luò)之上構(gòu)建overlay網(wǎng)絡(luò)來(lái)承載用戶流量。在數(shù)據(jù)中心中,海量的用戶雖相互獨(dú)立,卻共享著相同的網(wǎng)絡(luò)架構(gòu)與基礎(chǔ)設(shè)施資源。在如此復(fù)雜的網(wǎng)絡(luò)架構(gòu)下,面對(duì)用戶形態(tài)各異的業(yè)務(wù),想要從網(wǎng)絡(luò)層面分析客戶的流量與業(yè)務(wù)行為,愈發(fā)困難。
1.1 客戶投訴頻發(fā)
針對(duì)云網(wǎng)絡(luò)投訴工單分析時(shí)發(fā)現(xiàn),網(wǎng)絡(luò)異常行為引發(fā)的投訴占比較大。這類投訴主要有以下幾類常見(jiàn)形態(tài),如云主機(jī)密碼被攥改 后無(wú)法登錄、云主機(jī)被攻擊導(dǎo)致拒絕服務(wù),或者懷疑云主機(jī)被植入未知東西請(qǐng)求定位分析等。處理這類問(wèn)題極為棘手,從回溯云主機(jī)過(guò)往流量來(lái)定位網(wǎng)絡(luò)異常行為,進(jìn)階追蹤異常流量來(lái)源,并提供有效數(shù)據(jù)讓客戶配合整改等,每個(gè)環(huán)節(jié)不僅需要依賴于昂貴的專業(yè)網(wǎng)絡(luò)分析工具,同時(shí)還耗費(fèi)較多的運(yùn)維時(shí)間和人力。在網(wǎng)絡(luò)分析工具未采集和保存相關(guān)異常流量的情況,異常流量無(wú)法深層次展開(kāi)分析,會(huì)出現(xiàn)問(wèn)題無(wú)法解決的極端情況。
1.2 網(wǎng)絡(luò)設(shè)備負(fù)荷大且網(wǎng)絡(luò)使用感知差
在云網(wǎng)絡(luò)環(huán)境中倘若沒(méi)有及時(shí)發(fā)現(xiàn)并封堵某個(gè)云主機(jī)的網(wǎng)絡(luò)異常行為,不僅會(huì)導(dǎo)致同一區(qū)域內(nèi)的其它虛擬機(jī)有感染病毒的風(fēng)險(xiǎn),還會(huì)對(duì)給數(shù)據(jù)中心的網(wǎng)絡(luò)設(shè)備帶來(lái)較重的業(yè)務(wù)負(fù)荷。前期云數(shù)據(jù)中心出現(xiàn)過(guò)云主機(jī)發(fā)出大量小包攻擊導(dǎo)致出口云防火墻達(dá)到處理能力極限引發(fā)設(shè)備模塊異常宕機(jī),云主機(jī)發(fā)出大量無(wú)效填充數(shù)據(jù)包導(dǎo)致接入網(wǎng)絡(luò)設(shè)備鏈路達(dá)到最大閾值等多起網(wǎng)絡(luò)故障。網(wǎng)絡(luò)異常行為的連鎖影響,會(huì)降低數(shù)據(jù)中心提供的網(wǎng)絡(luò)服務(wù)質(zhì)量,在行業(yè)和客戶中帶來(lái)負(fù)面印象。及時(shí)發(fā)現(xiàn)并有效封堵這類網(wǎng)絡(luò)異常行為,是云計(jì)算網(wǎng)絡(luò)運(yùn)維需要盡快解決的迫切難題。
Nature
問(wèn)題本質(zhì)分析
從攻擊方向上來(lái)區(qū)分,云數(shù)據(jù)中心的網(wǎng)絡(luò)異常行為可以分為外網(wǎng)攻擊和內(nèi)網(wǎng)攻擊。外網(wǎng)攻擊是指攻擊源來(lái)自于外網(wǎng),與此相反,內(nèi)網(wǎng)攻擊是指攻擊源來(lái)自數(shù)據(jù)中心內(nèi)部。云數(shù)據(jù)中心外網(wǎng)攻擊問(wèn)題的風(fēng)險(xiǎn)相對(duì)可控,可以通過(guò)加強(qiáng)邊界安全防護(hù)來(lái)應(yīng)對(duì);內(nèi)網(wǎng)攻擊問(wèn)題的風(fēng)險(xiǎn)和影響范圍則要嚴(yán)重得多。云數(shù)據(jù)中心提供的安全可靠的云主機(jī)無(wú)故變成攻擊源,用戶會(huì)質(zhì)疑云服務(wù)的可靠性,引發(fā)信任危機(jī)。為什么云主機(jī)變成了攻擊源且沒(méi)有手段及時(shí)主動(dòng)發(fā)現(xiàn)內(nèi)部攻擊源,是問(wèn)題關(guān)鍵。
2.1 客戶行為空間大,安全意識(shí)薄弱
首先,云數(shù)據(jù)中心提供給用戶的網(wǎng)絡(luò)編排服務(wù)是極為靈活的,尤其是公有云數(shù)據(jù)中心,用戶可以按需訂購(gòu)路由器和防火墻等網(wǎng)元,也可以自由定義外部的防火墻規(guī)則和內(nèi)部的云主機(jī)安全組規(guī)則。不同云租戶業(yè)務(wù)形態(tài)及重要性不同,負(fù)責(zé)運(yùn)維的IT人員水平也不同。倘若有部分用戶的安全防護(hù)意識(shí)不高,例如未設(shè)置合適的安全防御規(guī)則或是操作行為管控不嚴(yán)格,其云主機(jī)可能因植入木馬或感染病毒而成為網(wǎng)絡(luò)攻擊源。由于云里面虛擬化層面的許多資源是共享的,內(nèi)網(wǎng)IP主機(jī)受感染后會(huì)對(duì)其他內(nèi)網(wǎng)主機(jī)、外網(wǎng)IP進(jìn)行感染和攻擊,會(huì)進(jìn)一步擴(kuò)大感染范圍。
2.2 現(xiàn)有安全防護(hù)設(shè)計(jì)集中在出口
其次,受限于技術(shù)發(fā)展制約,現(xiàn)有安全設(shè)備虛擬化的進(jìn)展相對(duì)較慢。目前較多的安全設(shè)備仍然采用傳統(tǒng)模式且較為集中部在數(shù)據(jù)中心出口邊界處。這種部署模式更多的是進(jìn)行數(shù)據(jù)中心南北向流量的安全防御,針對(duì)數(shù)據(jù)中心內(nèi)部的安全防御能力則較為薄弱。例如內(nèi)網(wǎng)龐大的流量里遭遇小包攻擊或者是一臺(tái)虛機(jī)中了病毒開(kāi)始做慢速掃描,這類網(wǎng)絡(luò)異常行為一般很難發(fā)現(xiàn)和引流出來(lái),這樣就會(huì)把一些非常嚴(yán)重的安全事件忽略掉。
2.3 傳統(tǒng)網(wǎng)絡(luò)分析手段的制約
最后,采用傳統(tǒng)的網(wǎng)絡(luò)流量采集分析系統(tǒng)(包含數(shù)據(jù)中心內(nèi)部的流量),通過(guò)其回溯和分析能力可以清晰定位網(wǎng)絡(luò)異常行為,但這是一個(gè)昂貴的解決方案。大多數(shù)云數(shù)據(jù)中心內(nèi)部都是使用的萬(wàn)兆以上的網(wǎng)絡(luò),服務(wù)器與服務(wù)器之間的通信流量很龐大,在上百個(gè)機(jī)柜上千臺(tái)服務(wù)器的情況下,數(shù)據(jù)中心內(nèi)部流量極其龐大。傳統(tǒng)網(wǎng)絡(luò)分析系統(tǒng)通常是幾十G的處理能力,難以滿足內(nèi)部大流量需求。
Measure
云網(wǎng)絡(luò)異常行為的處理手段
在云數(shù)據(jù)中心構(gòu)建內(nèi)部和出口側(cè)全方位一體的網(wǎng)絡(luò)異常行為檢測(cè)系統(tǒng),是解決問(wèn)題的第一步,也是尤為關(guān)鍵的一步。南方基地針對(duì)網(wǎng)絡(luò)異常行為進(jìn)行特征提取和分析,并基于移動(dòng)云數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)和原理進(jìn)行深度剖析,總結(jié)出一套“流表流量粗細(xì)結(jié)合”的分析策略,成功實(shí)現(xiàn)低成本高效率的網(wǎng)絡(luò)異常行為發(fā)現(xiàn)。在云數(shù)據(jù)中心內(nèi)部,數(shù)據(jù)量極為龐大的云主機(jī)數(shù)據(jù)發(fā)送端,通過(guò)匹配虛擬交換機(jī)的流表特征,初步篩選出異常虛擬機(jī);在云數(shù)據(jù)中心核心層和出口側(cè),數(shù)據(jù)量相對(duì)較少的網(wǎng)絡(luò)節(jié)點(diǎn)上,基于傳統(tǒng)網(wǎng)絡(luò)分析系統(tǒng)匹配用戶數(shù)據(jù)包的特征,精準(zhǔn)篩選出異常虛擬機(jī)的可疑行為,并進(jìn)行深層次的問(wèn)題分析。
3.1 SDN組網(wǎng)環(huán)境介紹
移動(dòng)云數(shù)據(jù)中心在四期項(xiàng)目中采用了SDN的網(wǎng)絡(luò)解決方案,以滿足網(wǎng)絡(luò)全自動(dòng)化部署、快速配置等數(shù)據(jù)中心網(wǎng)絡(luò)新需求。在網(wǎng)絡(luò)管理平面引入了openflow流表,實(shí)現(xiàn)控制器對(duì)虛擬交換機(jī)的靈活控制;在網(wǎng)絡(luò)業(yè)務(wù)平面引入了vxlan技術(shù),即在原有underlay網(wǎng)絡(luò)之上構(gòu)建了一層overlay網(wǎng)絡(luò),打破vlan數(shù)量制約,顯著擴(kuò)展業(yè)務(wù)隔離域數(shù)量。
圖1:sdn云數(shù)據(jù)中心的具體網(wǎng)絡(luò)架構(gòu)示意圖
3.2 新的發(fā)現(xiàn)手段:源+出口兩手結(jié)合
我們從物理機(jī)上虛擬交換機(jī)的流表和移動(dòng)云核心、出口側(cè)的流量這兩個(gè)點(diǎn)出發(fā),可以實(shí)現(xiàn)對(duì)數(shù)據(jù)中心內(nèi)部流量的全方位覆蓋,并能針對(duì)具體網(wǎng)絡(luò)流量進(jìn)行全面。
3.2.1 虛擬交換機(jī)的流表分析
傳統(tǒng)數(shù)據(jù)中心內(nèi),硬件服務(wù)器是最小的計(jì)算單元;云數(shù)據(jù)中心內(nèi),虛擬機(jī)才是最小的計(jì)算單元。與傳統(tǒng)數(shù)據(jù)中心組網(wǎng)不同,云數(shù)據(jù)中心內(nèi)虛擬交換機(jī)是名副其實(shí)的接入交換機(jī),是網(wǎng)絡(luò)接入的第一線。采用傳統(tǒng)的網(wǎng)絡(luò)分析方法,需要通過(guò)端口鏡像的方式將流量引出到外部的網(wǎng)絡(luò)分析系統(tǒng)進(jìn)行異常行為的判斷。端口鏡像的方式,會(huì)對(duì)硬件服務(wù)器的網(wǎng)卡性能進(jìn)行對(duì)半消耗,同時(shí)對(duì)虛擬交換機(jī)的性能也有較大影響。能否在虛擬交換機(jī)上通過(guò)其它的方式來(lái)進(jìn)行網(wǎng)絡(luò)異常行為的發(fā)現(xiàn)呢?剖析虛擬交換機(jī)的工作原理成為關(guān)鍵。
OpenvSwitch,簡(jiǎn)稱OVS,是一個(gè)虛擬交換軟件。OVS的連接著物理網(wǎng)卡和多塊虛機(jī)的虛擬網(wǎng)卡,并根據(jù)內(nèi)部的 MAC地址映射表完成數(shù)據(jù)轉(zhuǎn)發(fā)。在SDN架構(gòu)下,控制器下發(fā)openflow流表指導(dǎo)OVS進(jìn)行實(shí)現(xiàn)交換策略。
圖2:OVS示意圖
ovs核心工作包括數(shù)據(jù)轉(zhuǎn)發(fā)和實(shí)現(xiàn)交換策略。數(shù)據(jù)交換工作,即負(fù)責(zé)從設(shè)備入端口接收數(shù)據(jù)包并依據(jù)流表信息對(duì)其進(jìn)行管理。而OVS的OpenFlow協(xié)議支持則用于實(shí)現(xiàn)交換策略,即通過(guò)增加、刪除、修改流表項(xiàng)的方式告訴數(shù)據(jù)轉(zhuǎn)發(fā)通路針對(duì)不同的數(shù)據(jù)流采用不同的動(dòng)作
虛擬交換機(jī)的內(nèi)核流表,能夠較為直觀的反應(yīng)出實(shí)時(shí)流量的關(guān)鍵信息,如虛擬交換機(jī)端口,源目的ip,源目的端口,數(shù)據(jù)包類型等。若此時(shí)有一個(gè)ping數(shù)據(jù)包,其相對(duì)應(yīng)的流表如下如示。
圖3:虛機(jī)所處物理環(huán)境
獲取到以下對(duì)應(yīng)的流表:
- ·skb_priority(0),tunnel(tun_id=0x31b3f5/0xffffffffffffffff,src=10.0.1.2/255.255.255.255,dst=10.0.1.1/255.255.255.255,tos=0/0xff,ttl=64/0xff,flags(key)),in_port(6),skb_mark(0),eth(src=fa:16:3e:eb:2b:1e,dst=fa:16:3e:79:b7:62),eth_type(0x0800),ipv4(src=192.168.1.5/255.255.255.255,dst=192.168.1.3/255.255.255.255,proto=1/0xff,tos=0/0,ttl=64/0,frag=no/0xff), packets:7, bytes:686, used:0.882s, actions:5
- ·skb_priority(0),in_port(5),eth(src=fa:16:3e:79:b7:62,dst=fa:16:3e:eb:2b:1e),eth_type(0x0800),ipv4(src=192.168.1.3/255.255.255.255,dst=192.168.1.5/255.255.255.255,proto=1/0xff,tos=0/0x3,ttl=64/0,frag=no/0xff), packets:7, bytes:686, used:0.883s, actions:set(tunnel(tun_id=0x31b3f5,src=0.0.0.0,dst=10.0.4.84,tos=0x0,ttl=64,flags(key))),6
表1:流表數(shù)據(jù)
虛擬機(jī)的每一個(gè)實(shí)時(shí)會(huì)話都會(huì)以一個(gè)流表項(xiàng)的方式呈現(xiàn)出來(lái)。只要針對(duì)流表項(xiàng)進(jìn)行深度分析,就能真實(shí)復(fù)原云主機(jī)的會(huì)話詳情。虛擬交換機(jī)的下聯(lián)端口與云主機(jī)一一關(guān)聯(lián),若是虛擬交換機(jī)某個(gè)下聯(lián)端口的流表提取特征有異常,則可以判斷出該端口對(duì)應(yīng)的云主機(jī)有可能存在網(wǎng)絡(luò)異常行為。
- 流表數(shù)量過(guò)大:?jiǎn)闻_(tái)云主機(jī)對(duì)應(yīng)的流表數(shù)量超出10000條/秒。
- 流表方向不對(duì)稱:?jiǎn)闻_(tái)虛機(jī)對(duì)應(yīng)的出方向流表數(shù)量大于2000條/秒,且入方向流表小于50條/秒。
我們采用了開(kāi)源監(jiān)控工具zabbix設(shè)置好告警規(guī)則,包括某段時(shí)間內(nèi)的平均流表數(shù)量、某段時(shí)間內(nèi)的流表變化速率、收發(fā)比閾值等告警條件。在某一臺(tái)虛機(jī)或物理機(jī)流表數(shù)據(jù)匹配上規(guī)則時(shí),發(fā)出相應(yīng)的告警。
3.2.2 數(shù)據(jù)中心核心和出口側(cè)的流量分析
數(shù)據(jù)中心的核心層和出口側(cè)均進(jìn)行端口鏡像將流量引入到后端的網(wǎng)絡(luò)分析系統(tǒng)。核心層和出口側(cè)的流量雖然相對(duì)較少,但卻是數(shù)據(jù)中心的關(guān)鍵流量信息,例如數(shù)據(jù)中心與外部網(wǎng)絡(luò)的交互,數(shù)據(jù)中心內(nèi)部跨匯聚交換機(jī)的交互流量均能被有效采集。針對(duì)網(wǎng)絡(luò)分析系統(tǒng)獲取到的數(shù)據(jù)包進(jìn)行下述關(guān)鍵特征匹配。
數(shù)據(jù)包收發(fā)比:正常通訊過(guò)程中,通訊雙發(fā)的數(shù)據(jù)會(huì)維持在特定的收發(fā)比例,即使下載數(shù)據(jù)過(guò)程中,數(shù)個(gè)下載數(shù)據(jù)包后總會(huì)有一個(gè)ACK包維持通信過(guò)程;根據(jù)移動(dòng)云用戶歷史數(shù)據(jù)基準(zhǔn),定義符合“單臺(tái)主機(jī)發(fā)包大于10000個(gè)/秒,收到小于50個(gè)/秒”的條件時(shí),是填充數(shù)據(jù)包攻擊的網(wǎng)絡(luò)異常行為。該行為對(duì)網(wǎng)絡(luò)影響嚴(yán)重,數(shù)個(gè)這樣的客戶端可使一條10G鏈路超載;通過(guò)該策略找出的異??蛻舳耍?jīng)過(guò)事后驗(yàn)證,從未錯(cuò)誤識(shí)別過(guò)一臺(tái)正常主機(jī),屬于適合云環(huán)境的有效預(yù)警策略。
圖4:收發(fā)比異常流量
tcp同步數(shù)據(jù)包收發(fā)比:云內(nèi)部不正常的SYN掃描總伴隨著安全攻擊和泛洪攻擊。根據(jù)移動(dòng)云歷史基準(zhǔn),正常的云端主機(jī)的TCP連接行為會(huì)維持在一個(gè)穩(wěn)定水平,定義符合“單臺(tái)主機(jī)tcp第一個(gè)請(qǐng)求數(shù)據(jù)包的發(fā)包大于2000個(gè)/秒,ack應(yīng)答包收到小于50個(gè)/秒”的條件時(shí),是泛洪攻擊的網(wǎng)絡(luò)異常行為。
圖5:SYN攻擊數(shù)據(jù)包
若是數(shù)據(jù)包匹配上述規(guī)則,則觸發(fā)告警,通過(guò)實(shí)時(shí)對(duì)監(jiān)控鏈路的流量異常變化進(jìn)行預(yù)警,發(fā)現(xiàn)異常虛機(jī),在用戶體驗(yàn)感受下降前,主動(dòng)出擊解決問(wèn)題,實(shí)現(xiàn)運(yùn)營(yíng)的主動(dòng)化。
Intelligent means
云網(wǎng)絡(luò)異常行為的智能處理
在云數(shù)據(jù)中心流程化、自動(dòng)化處理網(wǎng)絡(luò)異常行為,是抑制網(wǎng)絡(luò)異常行為帶來(lái)的影響,也是徹底刨除問(wèn)題源頭的重要環(huán)節(jié)。南方基地結(jié)合開(kāi)源監(jiān)控軟件及自行開(kāi)發(fā)的運(yùn)維平臺(tái),自動(dòng)化采集流表及流量數(shù)據(jù),智能化告警監(jiān)控,定制化開(kāi)發(fā)異常流量的封堵手段。在抑制病毒擴(kuò)散,清理病毒源的同時(shí),實(shí)現(xiàn)自動(dòng)化運(yùn)維,提高運(yùn)維效率。從被動(dòng)運(yùn)維,被動(dòng)接投訴、接故障,到主動(dòng)運(yùn)維,及時(shí)發(fā)現(xiàn)問(wèn)題,實(shí)時(shí)處理問(wèn)題,實(shí)現(xiàn)運(yùn)維角色的轉(zhuǎn)換。
4.1 自動(dòng)化處理流程
處理流程:采集---告警---封堵---整改---整體提升。對(duì)于網(wǎng)絡(luò)異常行為,我們采用了智能化、自動(dòng)化的處理方式。
圖6:自動(dòng)化處理流程
首先,對(duì)物理機(jī)上虛擬交換機(jī)的流表和移動(dòng)云核心、出口側(cè)的流量信息進(jìn)行數(shù)據(jù)采集。采用zabbix自動(dòng)獲取物理機(jī)上虛擬交換機(jī)的流表數(shù)據(jù),采用科來(lái)系統(tǒng)鏡像引流核心層及出口側(cè)的流量。其次,分別在zabbix、科來(lái)系統(tǒng)上設(shè)置閾值及關(guān)鍵特征等告警條件,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)異常的公網(wǎng)IP或客戶虛機(jī)。然后,調(diào)用云數(shù)據(jù)中心openstack的API接口,為云管理平臺(tái)定制化開(kāi)發(fā)流量封堵功能,對(duì)網(wǎng)絡(luò)異常的流量進(jìn)行封堵。最后,在核實(shí)客戶已完成整改后,由云管理平臺(tái)解封客戶虛機(jī),整體提升數(shù)據(jù)中心的網(wǎng)絡(luò)環(huán)境。
4.2 數(shù)據(jù)采集
4.2.1 zabbix工具
流表數(shù)據(jù)采集使用zabbix系統(tǒng),zabbix是一套具備分布式系統(tǒng)監(jiān)控及網(wǎng)絡(luò)監(jiān)控功能的開(kāi)源軟件。為解決云環(huán)境下,客戶虛機(jī)動(dòng)態(tài)創(chuàng)建,端口流表數(shù)據(jù)采集無(wú)法提前配置的問(wèn)題,我們采用zabbix自動(dòng)發(fā)現(xiàn)規(guī)則,在物理機(jī)上配置好key,并結(jié)合OVS,實(shí)時(shí)發(fā)現(xiàn)虛機(jī)及對(duì)應(yīng)的虛擬端口,定時(shí)收集每臺(tái)虛機(jī)的流表數(shù)量、數(shù)據(jù)收發(fā)等關(guān)鍵數(shù)據(jù)。
4.2.2 科來(lái)系統(tǒng)
出口側(cè)流量采集使用科來(lái)系統(tǒng),科來(lái)網(wǎng)絡(luò)回溯分析系統(tǒng)是一款集成數(shù)據(jù)包采集和智能分析硬件平臺(tái),分布部署在網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn),實(shí)現(xiàn)對(duì)數(shù)據(jù)包級(jí)的實(shí)時(shí)智能分析。我們采用端口鏡像的方式,通過(guò)分光器將出口側(cè)及核心層的業(yè)務(wù)流量復(fù)制到后端分析節(jié)點(diǎn),從而獲取出口側(cè)流量數(shù)據(jù)。
4.3 告警閾值設(shè)置
依據(jù)上一章節(jié)的OVS流表規(guī)范及出口側(cè)流量規(guī)范設(shè)置zabbix及科來(lái)系統(tǒng)的告警規(guī)則,智能發(fā)現(xiàn)網(wǎng)絡(luò)行為異常的虛機(jī)和公網(wǎng)IP。利用其圖形界面展示某段時(shí)間內(nèi)虛機(jī)的流表數(shù)量、變化速率及收發(fā)比變化,以及公網(wǎng)IP的數(shù)據(jù)包內(nèi)容及連接數(shù)量等信息,協(xié)助甄別客戶虛機(jī)是否正對(duì)外發(fā)起攻擊。
圖7:虛機(jī)流表數(shù)量過(guò)大告警
圖8:公網(wǎng)IP行為異常告警
4.4 定制化開(kāi)發(fā)流量封堵功能
在openstack與SDN的云環(huán)境中,端口分為內(nèi)網(wǎng)端口和外網(wǎng)端口,虛機(jī)對(duì)外訪問(wèn)的流量先經(jīng)內(nèi)網(wǎng)端口轉(zhuǎn)發(fā)到外網(wǎng)端口后再通過(guò)外網(wǎng)。為保證網(wǎng)絡(luò)異常行為不影響數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)環(huán)境,我們需在內(nèi)網(wǎng)端口進(jìn)行流量封堵。同時(shí),為保證客戶能有特殊通道進(jìn)入虛機(jī)進(jìn)行安全整改,我們使用安全組放通特定流量。調(diào)用openstack API及監(jiān)控系統(tǒng)API,在云管理平臺(tái)定制化開(kāi)發(fā)行為異常封堵功能。在發(fā)生行為異常告警時(shí),可由云管理平臺(tái)直接完成流量封堵并通知客戶。
圖9:云管理平臺(tái)調(diào)用控制器對(duì)虛機(jī)流量封堵示意圖
正常的流量途徑是:虛機(jī)——>虛機(jī)網(wǎng)卡——>虛擬交換機(jī)——>物理網(wǎng)卡——>外部網(wǎng)絡(luò),其中,在虛擬交換機(jī)上經(jīng)控制器下發(fā)流表對(duì)流量進(jìn)行nat或隧道封裝。簡(jiǎn)單地對(duì)虛機(jī)網(wǎng)卡進(jìn)行流量封堵,會(huì)因客戶行為引發(fā)openstack系統(tǒng)狀態(tài)恢復(fù)而導(dǎo)致虛機(jī)網(wǎng)卡封堵失敗。在物理網(wǎng)卡上進(jìn)行流量封堵,則會(huì)導(dǎo)致移動(dòng)云系統(tǒng)前后臺(tái)配置不一致。為了精確區(qū)分每一個(gè)虛機(jī)的流量,保證封堵的效果與穩(wěn)定性,采用自定義開(kāi)發(fā)的腳本,通過(guò)API接口調(diào)用控制器下發(fā)openflow流表丟棄異常的虛機(jī)流量是最佳的選擇。
圖10:云管理平臺(tái)自動(dòng)化封堵異常行為虛機(jī)
封堵邏輯如下:云管理平臺(tái)通過(guò)api接口查詢openstack系統(tǒng),確定網(wǎng)絡(luò)行為異常虛機(jī)的端口信息。同時(shí),預(yù)先定義好限速為100k的QOS及放通特定端口的安全組規(guī)則。確定端口信息后,云管理平臺(tái)將預(yù)設(shè)的QOS、安全組及虛機(jī)端口下發(fā)給SDN控制器。SDN控制器自動(dòng)生成openflow流表,并下發(fā)到流量異常虛機(jī)所在物理機(jī),由流表實(shí)現(xiàn)異常流量的封堵。
4.5 自動(dòng)化處理思路
移動(dòng)云數(shù)據(jù)中心采用了SDN的網(wǎng)絡(luò)解決方案,引入openflow流表、vxlan等新技術(shù),帶來(lái)網(wǎng)絡(luò)全自動(dòng)化部署等新功能,但也增加運(yùn)維的復(fù)雜度。為了減少重復(fù)、繁多的運(yùn)維工作,自動(dòng)化是必然的發(fā)展方向。深入剖析openflow流表、客戶網(wǎng)絡(luò)行為、數(shù)據(jù)包結(jié)構(gòu)三者之間的關(guān)系,挖掘到這些離散數(shù)據(jù)背后的規(guī)則,使自動(dòng)化處理網(wǎng)絡(luò)異常行為成為可能。移動(dòng)云使用的開(kāi)源軟件openstack、zabbix等,更便捷地對(duì)接數(shù)據(jù)采集、監(jiān)控告警、系統(tǒng)封堵各環(huán)節(jié),是流程自動(dòng)化的保證。
將重復(fù)的故障處理腳本化,能為自動(dòng)化平臺(tái)提供原子腳本支撐,并豐富平臺(tái)功能;而自動(dòng)化平臺(tái)的開(kāi)放性與完整體系,保證大多數(shù)的運(yùn)維工作都能在平臺(tái)上實(shí)現(xiàn)。兩者相輔相成,最終實(shí)現(xiàn)平臺(tái)自動(dòng)化完成重復(fù)性、規(guī)律性工作,提高整體運(yùn)維效率。
Achievements and Extend
效益及推廣分析
5.1 網(wǎng)絡(luò)攻擊有效遏制
采用該套異常流量分析系統(tǒng)后,網(wǎng)絡(luò)安全事件工單數(shù)量從平均每周13單,下降了80%。安全事件工單處理時(shí)長(zhǎng)從8小時(shí),縮短了95%,半小時(shí)便能走完以下步驟:智能發(fā)現(xiàn)異常流量、歷史數(shù)據(jù)判斷,專業(yè)分析確定異常,自動(dòng)化封堵流量。使得數(shù)據(jù)中心的異常流量得到有效控制,網(wǎng)絡(luò)安全環(huán)境大為改善。
5.2 發(fā)現(xiàn)新的分析手段
結(jié)合ovs的流表匹配規(guī)則,不僅能收集全網(wǎng)虛機(jī)的網(wǎng)絡(luò)流量數(shù)據(jù),同時(shí)也不會(huì)侵犯客戶數(shù)據(jù)隱私。該分析策略用于故障預(yù)防和快速定位,可實(shí)現(xiàn)運(yùn)維可視化管理,用量化數(shù)據(jù)指導(dǎo)云數(shù)據(jù)中心建設(shè),從科學(xué)的角度去規(guī)劃、優(yōu)化網(wǎng)絡(luò)與業(yè)務(wù)系統(tǒng),不僅是保證網(wǎng)絡(luò)業(yè)務(wù)正常,還能為產(chǎn)品運(yùn)營(yíng)提供支撐,擴(kuò)大運(yùn)營(yíng)收入。
作者簡(jiǎn)介:
陳健林,中移動(dòng)網(wǎng)絡(luò)運(yùn)維工程師,入網(wǎng)維坑已有三年,負(fù)責(zé)云數(shù)據(jù)中心SDN網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、運(yùn)維、優(yōu)化等工作。
劉瑛,中國(guó)移動(dòng)高級(jí)網(wǎng)絡(luò)運(yùn)維工程師,負(fù)責(zé)云數(shù)據(jù)中心的SDN網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)、運(yùn)維、優(yōu)化等工作,具有豐富的運(yùn)維實(shí)戰(zhàn)經(jīng)驗(yàn)。
當(dāng)前文章:SDN云數(shù)據(jù)中心網(wǎng)絡(luò)異常行為的智能處理實(shí)踐
分享URL:http://m.fisionsoft.com.cn/article/codeidc.html


咨詢
建站咨詢
