3. 不精確的訪問者記錄
日志方法辨別獨立訪問者需要依靠客戶端的IP地址,也只能依靠它。不過,IP地址顯然不代表真正的訪問者。上班族的整個辦公室的IP地址都可能是一個(使用代理服務器),而這個辦公室可能坐著十多個人。這可能使訪問者的數量被低估。
同樣,在家中,如果你購買了公共網絡服務,那么你的IP地址存在動態分配的問題。你今天上網的IP地址和明天的可能就會不同,這個時候日志方法只能判斷為兩個不同的訪問者。這又可能使訪問者的數量被高估。
此外,前面提到過日志是能夠忠實記錄機器(非人為)的訪問活動的,但是機器不是人,它們的活動混在真實的人的訪問之中,同樣會使真實訪問者的數量,或者訪問數本身被高估。
在這正反兩相反方向的共同作用下,結果只能一個,那就是對于訪問者數量的估算是非常模糊的。當然,我們必須要承認,無論用什么方法,網站訪問者的精確數量都無法獲得,但相對而言,日志方法要更不準確些。
4. 較弱的實時性
沒錯,網站服務器日志是記錄服務器運行的實時數據的,但是這些數據想要被取出分析,實時性就沒有那么好了。常見的情況是,你必須首先把服務器日志文件(log file)從服務器中取出來,而這些文件肯定不會是服務器正在運行過程中的數據,一般都是隔天的(需要驗證),然后再把這些日志文件導入到專門針對日志分析的工具中才能進行分析。這個過程的快慢依賴于你的熟練程度,但要追求實時,頗有難度。
有技術高超的站長或者工程師通過架設內部網絡、組建專門的日志分析服務器,并且編寫特定的程序來解決日志分析的實時性問題(http://www.phparticle.net/htmldata/36462/1/),但是,對于普通的中小網站,這種方法難度頗大,花費不菲,所以可行性不強。因此,實時性是絕大部分通過日志方法來分析網站數據時要面對的問題。
5. 海量的數據存儲
服務器日志是忠實的,所以它會如實記錄下來每一分每一秒發生的每一條服務器響應。對于一些流量稍大的網站,一天的網站日志記錄超過數個G(Gigabytes)是非常正常的,而那些最大的網站,一個小時就可能產生數G的記錄。我們沒有詹姆斯・卡梅隆的超級團隊(他的《阿凡達》特效需要處理超過500,000G的數據),所以如果要回溯網站一個月的流量就可能變成一個相當棘手的問題,需要投入相當的時間和耐心,如果你沒有相當的技術和經驗,效率就會很低。
6. 日志文件獲取繁瑣
我們不能把日志文件的獲取想象的太簡單,畢竟這不是在自己臥室的電腦中點開一個MP3文件那么容易。有些網站有鏡像服務器,有些服務器在境外,有些服務器是由處在多個不同地理位置的物理服務器邏輯組合而成。這些情況下,在進行日志分析之前需要集中所有的日志文件,這是一個很有些麻煩的事情,尤其是當日志文件的體積極為龐大的時候。另外,如果是租用的ISP服務器空間,如果沒有權限獲取日志數據,那么實際上連進行分析的可能性都沒有了。
現在,你完全了解了日志方法收集網站分析數據的優缺點,那么,什么情況下你應該選擇這種方法進行網站分析呢?
4. 什么情況下該用日志分析方法
如果你有如下的數據監測和分析的需要,你應該用日志分析方法:
1. 需要了解搜索引擎機器人或者其他非人為訪問流量,并且希望據此對網站進行針對性的優化,如通過分析搜索引擎的訪問行為來進行SEO;
2. 需要了解除了普通的PC客戶端之外的上網設備對網站的訪問情況;
3. 需要了解網站的文件資源是否被用戶完整的下載索取;
4. 對網站流量信息具有極高的保密需要,不允許讓任何第三方染指或幫忙;
5. 對于網站服務器的安全性和可維護性有要求,以及有非常顯著的反抗黑客或其他非授權訪問需求的。
如果有如下需求,你不應該用日志分析方法:
1. 你的網站有重要的Flash之類的“非網頁類型的互動”,用戶和這些內容的互動是你想要了解的內容;
2. 不喜歡麻煩,對大數據量文件的處理不擅長,對日志文件不熟悉,沒有好的日志數據處理軟硬件資源;
3. 需要更精確的了解網站被真正的人訪問的情況,而不需要了解“非人”的機器對網站的訪問并且不希望受到網頁緩存的干擾;
4. 需要更好的實時性、更規律更直觀的數據呈現。
現在,拿著這個清單,你可以做出容易的選擇了。因為我的博客(http://www.chinawebanalytics.cn)的流量很多來自搜索引擎,因此分析服務器日志并了解搜索引擎爬蟲的工作其實是非常必要的一個分析工作之一。
就我的經驗而言,我們國家使用日志來分析網站仍然占有相當的比例,尤其是對于一些大型網站,他們會開發專門的軟件,劃撥專門的硬件資源來分析網站日志。不過,這不僅僅是從分析訪問者行為的角度來考慮,更是從網站服務器的安全性和可維護性角度來考慮的。
不過,如果你把網站分析的重心放在對于網站真實訪問者行為的追蹤和分析上,那么,通過日志方法來實現相對而言難度相對比較大,操作也比較繁瑣,我們可以利用另一種方法,即頁面標記法(Page Tag)來實現對網站訪問數據的收集。
[版權歸Sidney Song(宋星)所有,歡 迎轉載,但請事先告知作者并注明出處]
好了,介紹完了,希望大家覺得看完后還算愉快!現在是大家的時間了,請您留言,任何問題,想法,不確切之處,都非常歡迎!謝謝!
原文轉自:http://blogread.cn/it/article/1891?f=wb