由于地域限制的原因,我城域網分布在兩個地區,由A網絡和B網絡構成,通過Router1 和Router2的廣域網接口互連,并通過兩個ISP出Inte.net,而且在一端Internet或防火墻有問題時,可以互轉至另一端出Internet,所有核心設備的路由采用的是OSPF。網絡系統結構如圖所示。
本網絡的安全系統部署了防御外部攻擊的防火墻和一套不完善的防病毒系統,沒有安裝IDS和相應網絡管理及監控軟件。
上網出現異常
某日21:00,用戶故障臺申報A網絡不能上外部Internet,但是A網絡訪問B網絡提供的Web服務及其他應用服務正常,同時B網絡一切正常。
我們遠程進入系統檢測發現防火墻出了問題,按照常規重啟防火墻,結果還是不行;再通過系統設置將我們A網絡的外網出口轉至B網絡出口,發現B網絡上網突然變慢,而且有中斷的情況。開始我們認為那是流量較大的原因導致PIX2處理不及,但是后來PIX2癱瘓,A、B網絡都不能上Internet,這和我們平時互轉Internet不一樣,我們分析A網絡有問題,結果我們一撤消互轉,PIX2即恢復正常。
日志中找到蛛絲馬跡
1.故障信息的獲得
1)進入核心Router1
|
系統正常。
2)進入核心Switch1
系統資源占有率為11%,而且ARP和IPReceive占用CPU分別為0.09%和2%,一切和平時基本一樣,沒有異?,F象。
3)近端進入PIX1防火墻的審計系統觀察到如下大量的信息,如表1所示。
|
進入防火墻安全控制臺,調出生成的NAT記錄全部如下:
|
該類記錄一直出現 ,同時顯示防火墻資源耗盡。
故障分析
1)常規經驗
根據我們的經驗,沖擊波或震蕩波等網絡病毒發作攻擊防火墻時一般不帶隱蔽性,通過防火墻的審計系統和部署的防病毒服務器可以查出病毒源頭的IP或占用的TCP端口,在系統里通過Router和三層Switch的ACL將源IP和所占用的TCP端口封閉然后再找源IP即可解決問題。
2)故障表現
這次故障從整個系統來看,交換機、路由器、防病毒服務器的所有記錄沒有顯示出有大規模的病毒發作,因此我們排除了是病毒發作的可能性。
從防火墻的信息可以看出,整個防火墻的內核事件全部為:
“從119.206.107.154(351)到69.56.141.67(80)的TCP包未找到相應的連接”,NAT記錄也顯示了同樣的信息,源IP和源TCP端口在不斷地變化,源IP為外部地址,目標IP也是外部地址,目標TCP為80端口,整個故障現象給人的感覺不像網絡病毒發作,更不像通常的沖擊波蠕蟲病毒和震蕩波蠕蟲病毒,而且將A網絡的出口一轉至B網絡上就導致B網絡上Internet不正常。
3)故障類型
由于防火墻的工作機理使得在網絡中被攻擊對象一般是具有默認路由選擇的防火墻,根據故障表現、防火墻的信息和分析,我們初步判定為內部攻擊防火墻,是A網絡里用戶在攻擊防火墻PIX1,轉至B網絡出口該用戶又攻擊防火墻PIX2,導致外網的阻斷。
該次攻擊可能是某個用戶安裝黑客軟件惡意攻擊防火墻,也可能是該用戶無意中安裝了或感染了非法的木馬程序導致了攻擊的發生,而且該攻擊具有很大的欺騙性,該用戶將源地址轉換成不斷變化的外部公用IP,而且TCP變為HTTP占用的80端口,使得我們無從下手。
用排除法解決故障
為了保證用戶的利益,必須在最短的時間內查出故障源,同時影響范圍要盡可能小。由于攻擊有很大的欺騙性,從獲得的信息我們不能得知攻擊源的具體位置和網段,因此我們采用逐步排除法由大到小查找攻擊源,而且在解決過程中考慮系統的可操作性和OSPF的收斂對網絡系統構成的影響。
1.排查核心路由器以外的網絡
進入Router1,將Router1中連接A網絡和B網絡的端口關閉,PIX1中仍舊有以上信息出現,因此我們打開該接口。再在Router1里將Router1和Router3的接口關閉,發現攻擊仍然沒有停止。因此我們判定攻擊源不在Router1以外的用戶。
2.排查Router 4、Router 5上的用戶
進入核心Switch1,關閉Switch1與Router 4、Router 5的接口,發現問題還存在。經過以上操作,范圍進一步縮小,攻擊源確定在Switch1和Switch2自帶的用戶上,由于防火墻掛在Switch1上,因此我們先排除Switch2的用戶。
3.排查核心Switch2上的用戶
先進入Switch1和Router 1,采用扎口袋的辦法將它們與Switch2的接口關閉,打破自愈環,造成Switch2獨立成網絡,這時發現防火墻工作正常,故障現象消失,用戶能正常上Internet。因此初步判定攻擊源是Switch2上的用戶,但是具體網段還需要進一步的判定。
4.進一步排查具體網段和單機
1)超級終端進入核心Switch2,先將它上面的所有業務和用戶接口全部關閉,再遠程進入核心Switch1和Router 1打開它們與核心Switch2的接口。
2)遠程進入核心Switch2,逐步打開Switch2上各個二級單位的接口,當打開與勘探公司的千兆接口時,防火墻上的審計系統立刻出現故障信息,外網立刻受阻不暢,終于查明攻擊源具體在勘探公司的小范圍網絡內,于是打開其他正常的所有二級單位的網絡接口。
3)勘探公司的處理
由于勘探公司具有兩個C網段,計300多個用戶,而且遠離我們核心網絡40多公里,立刻聯系該公司的網絡管理員配合進行處理。
我們遠程登錄入該公司三層交換機,也采用先關閉后逐步打開的辦法將故障源定位到了一臺樓層接入層交換機上,由于該公司的網絡建設不規范,對于下層的交換機不能遠程管理,于是先采用Sniffer軟件進行跟蹤抓包,希望能從捕獲的數據流報文查出故障源的IP,結果也得出和防火墻審計系統相似的數據,不能查出具體IP和TCP端口。
最后采用物理拔網線的辦法查出了故障源,該用戶最近安裝了叫lonseled的軟件,它是一種以黑客方式檢查并探測網絡的軟件,導致了故障的發生。
這次故障影響面很大,有兩千多個用戶不能上外網,中斷時間長,部分用戶中斷達兩個半小時,雖然經過逐步排查終于水落石出,但是給我們帶來了慘痛的教訓,主要有以下幾點。
1.冷靜處理故障
在出現網絡攻擊時不要驚慌失措,要學會冷靜思考分析問題,采用圍追堵截和逐步排查的辦法由大到小地查出故障源。
2.網絡安全建設的必要性和重要性
在網絡建設和運營中我們不只是重視外部對網絡構成的威脅和網絡規模的擴大,隨著互聯網的迅猛發展,內部網絡中的網絡非法流量也是不可忽視的,因此內部構建一套完整的網絡安全系統顯得十分必要和重要,如果網絡中全面的部署了IDS、網絡管理及流量監控軟件等安全信息系統,這次故障就會在很短的時間內解決。
3.基礎網絡建設注意的問題
在低端的基礎網絡建設中也要做好網絡規劃,不能只做網線接頭的連通工程,這樣也會給我們網絡的安全運行帶來隱患,基礎建設好了會使得我們處理網絡故障得心應手,加快問題解決的步伐。