引言:
組織機構(以下統稱企業)信息化建設浪潮,催生了大量的內部信息資源。據統計,企業數據每年以200%的速度增長,其中80%的數據以文件、郵
|
“新華社多媒體數據庫搜索引擎”整合新華社海量多媒體數據,為內部工作人員和外部會員等用戶提供個性化綜合信息檢索、發布和推送訂閱服務。
新華社擁有國內新聞編輯部、對外新聞編輯部、國際新聞編輯部、新聞攝影編輯部等多個編輯部和分社,每個編輯部都有一套獨立的新聞采編系統,由不同系統負責不同種類新聞信息的存儲和管理工作,從而造成了不同部門的信息資源壁壘,形成了信息孤島,影響信息的共享和有效利用,迫切需要整合這些有價值的信息資源,建立開放的、共享的信息資源搜索平臺,為廣大編輯、記者等的采編工作提供服務。
同時,新華社作為有著70多年歷史的國家通訊社,是中國最大、最權威的新聞信息采集和發布中心,其新聞信息具有權威性、原創性、前瞻性、實用性、及時性等特點,黨政機關、群眾團體、科研教育機構、大中企業等都是新華社的用戶,所以該信息資源搜索平臺還應考慮外部用戶的不同需求,提供不同層次,具有不同針對性的信息服務。
概括起來新華社多媒體數據庫搜索引擎的需求有以下幾個方面的特點:
信息量大,需要對海量信息進行搜索、存儲和智能管理
文字信息,從1948年以來新華社播發的所有中文電訊稿3000余萬篇,而且每天新增全天24小時實時播發的新華社各路電訊稿、各種經濟信息專線產品,以及新華社社辦報刊和精選稿件等10000多篇。
圖片信息,內容涉及國內外政治、經濟、外交、文化、體育、教育及風土人情的圖片信息200多萬張,每日增加1600多張。
圖表信息,及國內外多個領域,集新聞性與藝術性于一體的圖表近萬張,每天遞增最新的國內國際圖表新聞10多張。
音、視頻信息,國內外時政新聞、財經新聞、體育新聞、娛樂新聞等音、視頻近萬小時。
信息形式多,需要提供統一、跨媒體檢索
不但包括文字、圖片、圖表和視頻等多種形式的信息資源,而且涵蓋了中文、英文、法文、西文、俄文、阿拉伯文、葡文等10多種語言信息資源。
服務人群多,需提供個性化服務
新華社多媒體數據庫搜索引擎不僅面向內部用戶,還面向許多類型的的外部用戶,例如:為媒體用戶提供大量豐富、前沿、精彩的各類新聞,作為編寫稿件的權威參考;為黨政機關提供不同針對性的政府專供信息,為各級政府及時把握中國政治、經濟的脈搏,正確決策提供參考;為大企業、經濟決策層、經濟管理部門、金融機構管理層等提供宏觀經濟、資本市場、貨幣市場的重要參考信息。
通過仔細考慮和對比,新華社采用了TRS的系列產品搭建了多媒體數據搜索引擎,整合了各個系統和互聯網上有價值的新聞資源,實現了海量信息的分布存儲和管理,實現了跨媒體統一檢索和個性化服務功能。
信息資源的采集、整合、管理
新華社多媒體數據庫系統通過TRS Gateway(關系數據庫網關)將原有各個部門系統中的信息采集到TRS Database Server(全文數據庫服務器)中進行統一分類存儲,采集不會影響到原有系統的業務邏輯的正常運行,同時保證了信息同步采集的實效性。
對于互聯網上有價值的新聞信息,則通過TRS InfoRadar(網絡信息雷達)定制網站進行采集,進入TRS Database Server中進行統一分類存儲,同時采集工具采用TRS先進的文本挖掘技術實現了自動過濾、自動排重、自動文摘和分類等功能,大大提高了信息的加工效率。
為了保證海量信息的存儲,保證海量信息的檢索的效率、穩定性和可靠性。系統采用TRS Database Server分布式集群結構作為系統的存儲和檢索支持。如下圖:
TRS DataBase Server分布式集群存儲結構圖
上圖中,“TRS數據庫服務器組”內的數據庫服務器之間采用負載均衡模式,由集群服務器統一調度,一個服務請求只需發往其中的一個數據庫服務器。同時,“TRS數據庫服務器組”之間則采用分布式檢索模式,一個檢索請求根據其所包含的目標對象的分布情況,發往部分或全部的數據庫服務器組。
通過TRS集群服務器可以實現以下目標:
通過增加“TRS數據庫服務器組”來解決海量數據的分布式存儲問題,實現了海量數據的無限擴展。
在多用戶并發檢索的條件下,保證海量信息的檢索的效率。
通過實現信息資源的冗余存儲,提供高可靠性的檢索服務。
通過實現不同的索引策略,滿足更加個性化的檢索需求。
海量信息個性化服務和多種組合檢索
新華社多媒體數據庫在TRS CDS(內容分發服務器)的基礎上構建了多媒體數據庫的發布服務,實現了統一檢索和個性化服務,具體包括:
多種檢索方式有機組合,使用戶獲得完美的檢索體驗。在分類檢索、全文檢索及高級檢索等基礎上,還提供檢索詞提示、拼音提示等智能檢索方式。并依靠TRS Database Server分布式集群結構的支持獲得滿意的檢索速度。
提供豐富的個性化定制功能,用戶可以根據個人需要,分別對內容分類、內容表現方式等進行個人定制。同時提供個人檢索收藏功能,用戶可以將自己習慣使用的檢索條件保存起來,以后可以直接使用,不需要再進行任何的輸入,方便快速的進行內容的檢索。在Web內容分發的基礎上,提供了郵件訂閱的服務方式,為用戶提供了主動獲取信息的方式。
大客戶信息推送,實現信息推送服務器及客戶端,為大型企業、政府部門和高校等集團和專供用戶提供個性化的特供產品服務。信息推送服務器可以按分類、時間等條件,自動生成數據庫數據的同步數據文件,并通過衛星、專線等方式將這些數據同步文件發送到各個推送客戶端。
客戶評價
通過TRS系列產品搭建的新華社多媒體數據庫搜索引擎,提高信息資源的使用效率,帶來了良好的社會效益和經濟效益,客戶是如此評價該系統的:“新華社是我國國家通訊社,是全球新聞信息總匯,TRS在新華社有廣泛應用,已經成為新華社業務的核心支撐技術之一,僅一個新華社多媒體數據庫,TRS管理的數據量已經超過3500萬記錄,TRS Database Server的集群功能是率先在新華社得到使用的,同時TRS良好的多語言支持能力,是一個國際化的企業搜索引擎。新華社的業務特點是數據在不斷的增加和變化,普通互聯網搜索引擎無法處理這類事務型需求,TRS Database Server能夠滿足這方面的需求!
文章來源于領測軟件測試網 http://www.kjueaiud.com/
版權所有(C) 2003-2010 TestAge(領測軟件測試網)|領測國際科技(北京)有限公司|軟件測試工程師培訓網 All Rights Reserved
北京市海淀區中關村南大街9號北京理工科技大廈1402室 京ICP備10010545號-5
技術支持和業務聯系:info@testage.com.cn 電話:010-51297073
老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月