網絡上所有的鏈接都可以用以下的三元素進行描述:
From_url(鏈接所在頁面的URL)
to_url(鏈接所指向的URL)
anchor(鏈接在頁面上所顯示的內容)
現在假設所有的網頁鏈接信息(from_url \ to_url \anchor)按from_url為軸都存儲在M
個(M:1k以內)巨型數據庫中:
1, 鏈接存儲形式:from_url to_url anchor;
2, 一個from_url的所有的to_url都存儲在同一個數據庫中;
3, 假設每個數據庫存儲的數據量相同
4, 要求設計一個獲取所有鏈接分發程序,將這些數據均勻分發到N個遠程數據庫中(N:1
00以內)要求做到:1所有to_url相同的鏈接需要分到同一個遠程數據庫,2所有to_url的
站點相同的需要分發到同一個遠程數據庫,3每個遠程數據庫獲取的鏈接總數要盡量均勻,
4每臺數據庫完成時間盡量保持一致5,獲取網頁的速度盡量快(從數據庫中)
信息。
延伸閱讀
文章來源于領測軟件測試網 http://www.kjueaiud.com/