關鍵字:雙語語料 語料庫的設計和語料收集
一、引言 近年來,在語言信息處理的研究和開發中,單語和多語語料庫(以雙語語料庫居多)的作用日益突顯出來。特別是在機器翻譯研究中,人們提出了多種基于雙語語料庫的新方法,例如采用所謂的基于實例(Example-Based)的或基于存儲(Translation Memory)的機器翻譯方法,可以直接使用經過對齊的雙語語料改善機器譯文的質量。此外,也可以通過統計模型從雙語語料庫中獲取雙語詞典和翻譯模式,從而改進傳統的機器翻譯方法。除中文信息方面的應用之外,雙語語料庫的建設對于雙語詞典編纂、跨語言的對比研究也具有重要價值。
目前關于雙語或多語語料庫的研究大致可分為三類:一是研究雙語語料的對齊技術(Alignment),國內外學者就此提出多種策略和方法,現在已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993];二是研究雙語語料的各種應用,如在基于統計的機器翻譯技術[Brown 1990]、基于實例的機器翻譯技術[Nagao 1984],雙語詞典編纂[Klavans and Tzoukermann 1990]技術中,雙語語料庫都發揮著十分重要的作用;三是雙語語料庫的設計、采集、編碼和管理問題。目前比較著名的語料庫編碼方案有TEI 文本編碼標準以及CES標準,兩者均基于SGML標記語言。就前兩類研究來說,中國國內目前做了較多的跟蹤研究工作,而對于第三類研究,即雙語語料庫尤其是涉及漢語的雙語語料庫的建設、編碼和管理研究,探索工作似乎做的相對較少。與此相關,目前諭舛薊姑揮屑接泄叵低車、经过深度加工的、以汉隅U從镅緣乃鎘锪峽獾謀ǖ饋?lt;/DIV>
北京大學計算語言學研究所、清華大學智能技術國家重點實驗室和中國科學院計算所三家單位聯合承擔了國家973課題——“面向新聞領域的漢英機器翻譯系統”的研制開發任務。系統決定采用基于多種方法的多引擎體系結構(將基于規則的方法與基于語料庫的方法相結合)。為此,需要建立一個具有一定規模的經過對齊處理的漢英雙語語料庫。本文將簡要介紹這樣一個服務于漢英機器翻譯的雙語語料庫的設計、收集、編碼和加工的情況。
二、語料庫的設計和語料收集
延伸閱讀
文章來源于領測軟件測試網 http://www.kjueaiud.com/