當前,內容過濾正在成為越來越熱門的話題。據IDC的分析統計預測,作為安全領域的一個重要分支,今年,內容安全市場的市值將達到65億美元。內容過濾仿佛成了萬能良藥,能夠解決互聯網帶來的一切的內容相關問題。市場上的防火墻、路由器、交換機、郵件網關、代理服務器等網絡產品幾乎都已經加入了內容過濾的功能。每個廠商都提供不同的產品,而且有著迥然不同的技術觀點和宣傳方式。另外,電信運營商也在進行著內容過濾,這是和每一個網民都息息相關的。那么,我們不僅要問,到底什么才是內容過濾,如何才能夠有效的進行內容過濾,內容安全的明天又是什么樣子呢?本文從技術的角度對內容過濾進行分析,以饗讀者。
企業網絡內容過濾
在每一個互聯網訪問的網絡邊緣(企業/學校網絡邊緣、網吧網絡出口),都可以部署內容過濾工具。這些工具一般是分析網絡數據流中包含的HTTP數據包,對數據包頭中的IP地址、URL、文件名、HTTP methods進行訪問控制。
在網絡邊緣的內容過濾產品有兩種表現方式,旁路式(Passby)和穿透式(Passthrough)。旁路式內容過濾產品是獨立的,它監聽網絡上所有信息,并有選擇的對基于TCP的連接進行阻斷。穿透式內容過濾產品依賴于其他網絡邊緣處的基礎平臺。穿透式內容過濾產品根據網絡邊緣接入基礎平臺的訪問請求,作出允許或禁止的判斷,然后由這些平臺執行過濾的動作。


那么,內容過濾產品如何作出允許或禁止的判斷呢?不同的廠商有著不同的解決方案。從理論上來講,最理想的產品能夠實時對網頁內容進行分析,然后判斷是否允許用戶訪問。例如,用戶訪問一個色情網站,內容過濾產品分析這個網站中頁面的內容,發現其中包含了大量的色情詞匯和圖片信息,從而判斷這是一個不良網站需要進行過濾。這是一個理想的狀態。但是,在具體的生產應用環境當中,實時分析網頁內容并進行過濾是不現實的,這個問題主要體現在對網頁內容實時分析給用戶瀏覽體驗帶來的延時是不可以接受的。對文字內容進行比較分析需要大量的計算資源,更不用說圖片信息。試想一下每一個用戶每點擊一個鏈接都要等待數十秒鐘,這還是比較好的情況。一般的企業網絡內每秒鐘都會有數個到數十個HTTP連接建立,這對實時的內容分析來說是不可完成的任務。
所以,絕大部分的廠商采取了一個折中的辦法,他們事先對訪問量較大、名氣較大的網站和網頁的內容做分類的工作,然后把URL、IP地址和內容分類對應起來。當用戶訪問這些網站上的頁面時,內容過濾產品就可以根據事先的分類進行過濾,達到按內容過濾的目的。
互聯網骨干網絡過濾
內容過濾除了在個人電腦和企業網絡中的應用,在互聯網骨干上也可以實現相同的功能;ヂ摼W骨干的主要任務是在保證可連通性的同時,盡可能快速的提供數據交換通道,這就要求網絡結構和配置盡可能簡單。屬于網絡高層應用的內容過濾本來不應該在互聯網骨干上部署實施。但是,出于國家安全的需要,對一些網站還是需要進行屏蔽。電信運營商在互聯網骨干上使用的內容過濾技術主要是DNS過濾和IP地址過濾:互聯網骨干DNS服務器拒絕解析指定URL列表;通過ACL拒絕到指定IP地址的連接。這些手段輕微的影響互聯網性能,但是技術和現實中也是可以實現和接受的。
另外,現在中國有些地區的寬帶運營商還提供“綠色上網”服務,為申請此項服務的用戶提供內容過濾的功能,以保護青少年和兒童。這些“綠色上網”服務的原理同以上的內容過濾原理是一樣的,不同之處在于每個用戶的可定制化功能。還有些運營商采取了“投訴”的方式來維護更新不良內容網址,通過獎勵上網費用和時間的方式來鼓勵寬帶用戶投訴不良網站。這也是一個很好的思路和現實的做法。
技術難點和技術趨勢
從以上過濾手段來看,它們都受制于內容分類的效率和準確性。如何提高內容分類的效率和準確性,是各個廠商鉆研的難題。
實際上,每個月都有新注冊的超過100萬個網站出現在互聯網上,也就是說互聯網是變化的,這種變化是永不停息的。我們不可能把所有的網站和網頁都進行歸類并放在數據庫當中,這樣的話,這個數據庫的規模將會遠遠超過實際應用中硬件平臺性能所能承受的最大限制。最好的辦法還是挑選一部分網站放在數據庫當中,這些網站至少具有兩個特征:訪問量比較大;包含不良內容。對于那些訪問量不大,或者內容“不咸不淡”的網站,大可以忽略不計。
在變化之外,每個企業或者每個人的瀏覽習慣都是不一樣的,也可能有些人特別喜歡瀏覽一些冷門的網站,這就涉及一個個性化的問題。為了對這些訪問進行控制和過濾,內容過濾產品本身還要具有一定的智能,能夠自動分析歸類這些網站的內容,并對用戶的訪問進行過濾。這樣的分析結果應該保留在訪問者的本地內容過濾設備上,而不是上傳同步到所有的用戶。這樣的話,所有用戶就有一個集中的公共數據庫,包含了絕大部分熱門網站;每個用戶還有一個分散的私人數據庫,包含了自己的瀏覽分析歸類數據。
文章來源于領測軟件測試網 http://www.kjueaiud.com/