標記系統允許以一致和循序漸進的方式對語料進行由淺層到深層的信息標注。
四、語料的標注和對齊
語料庫標注工作取決于語料庫將以何種方式使用。我們希望部分語料庫資源能夠直接用于改善機器譯文的質量,也希望能夠從語料庫中學習到漢語到英語的翻譯知識,例如漢英雙語詞典、翻譯模式等。為此,目前我們正在進行或計劃對語料庫進行下列標注工作:
1) 中文分詞和詞性標注;
2) 英文詞性標注;
3) 中文和英文的專名標注(中文機構名識別已作了小規模的實驗);
4) 中文、英文文本句子一級的對齊;
5) 中文專名和英文專名的對齊;
6) 中文詞語的詳細語法特征標注。這項標注將根據《現代漢語語法信息詞典規格說明書》[俞 1996]進行。在現代漢語語法信息詞典中,每類詞都可能擁有多達幾十個的語法特征信息,但在具體的上下文環境中,并非每個語法特征都有所表現,我們希望這項標注將有助于學習詞匯翻譯知識。目前對這項標注已經進行了一些小規模的實驗。
上述標注工作基本按照下面的過程進行:1)首先利用軟件工具進行自動標注;2) 人工校對標注結果。目前已有約10萬字的中文語料進行了分詞和詞性標注,對應的譯文進行了詞性標注,這部分語料的標注信息均已經過人工校對。另外,這部分語料句子對齊的校對工作也正在進行之中。
五、進一步的研究工作
在對10萬字語料的分詞和詞性標注、對齊的校對工作完成后,我們正在擴大處理語料的規模,對其余90萬字語料進行詞性標注和對齊加工。
在已有的標注信息基礎上,我們還將考慮對語料庫進行更深層次的標注工作,包括標注句子的句法結構和篇章的結構信息等。目前這方面的工作正在積極探索之中。
在應用方面,目前我們正在開發一個簡單的基于存儲的漢英機器翻譯引擎,并在兩個加工級別上使用具有不同標記深度的雙語語料。第一個級別是將沒有進行切詞、詞性標注的句子對齊結果直接作為資源用于機器翻譯,翻譯引擎根據用戶輸入的待譯句子在對齊的句對中進行檢索操作,如果命中,則直接輸出譯文;第二個級別是利用對齊的句對以及經過分詞和詞性標注的語料(其中一些特殊的詞語如數字、專有名詞等也經過對齊處理),翻譯引擎將這樣的句對視為一種框架結構,當用戶輸入待譯句子后,翻譯引擎利用輸入句子和這些框架結構進行匹配,如果匹配成功,則對其中的可以替換的詞匯進行替換,并修改相應英語譯文得到輸入句子的譯文,從而提高英語譯文的自然度。
參考文獻
[Brown 1990] Brown, P., et al, A statistical approach to machine translation, Computational linguistics, V16, No.2, 1990
[CES] Corpus Encoding Standard, http://www.cs.vassar.edu/CES/
[Gale 1993] Gale W., et al, A program for aligning sentence in bilingual corpora, Computational linguistics, V19, No.1, 1993
[Klavans 1990] Klavans, J., and Tzoukermann, E., The BICORD system, In Proceedings, 15th International Conference on Computational Linguistics.
[劉1995] 劉昕,周明,黃昌寧,基于長度算法的中英雙語文本對齊的試驗,陳力為等主編《計算語言學進展與應用》,清華大學出版社,1995
[Nagao 1984] Nagao, M., A Framework of a Mechanical Translation between Japanese and English by Analogy Principle, In: A.Elithorn et al eds. Artificial and Human Intelligence, NATO Publication
[TEI] TEI Guidelines for Electronic Text Encoding and Interchange, http://etext.virginia.edu
[俞1996] 俞士汶 ,朱學鋒等,《現代漢語語法信息詞典》規格說明書,《中文信息學報》,1996年第2期
Bilingual Corpus Construction and its Management
for Chinese-English Machine Translation
Chang-Baobao Zhan-Weidong† Zhang-Huarui
The Institute of Computational Linguistics, Peking University, 100871
†The Department of Chinese Language and Literature, Peking University, 100871
Abstract: In recent years, monolingual or multilingual (primarily bilingual) corpora are viewed as key resources in language information processing and language engineering projects. To support an ongoing Chinese-English machine translation project, a Chinese English bilingual corpus is being set up. This paper gives a brief discussion on construction of the corpus.
Keywords: Bilingual Corpus, Machine Translation, Corpus Markup, Corpus Annotation
面向漢英機器翻譯的雙語語料庫的建設及其管理
常寶寶 詹衛東† 張華瑞
北京大學計算語言學研究所,北京,100871
†北京大學中文系,北京,100871
摘要: 近年來,在語言信息處理的研究和開發中,單語和多語語料庫(主要是雙語語料庫)的作用日益突顯出來。為了支持一項正在進行的漢英機器翻譯系統的開發,我們建立了一個漢英雙語語料庫。本文簡要介紹了該語料庫的建設和管理情況。
延伸閱讀
文章來源于領測軟件測試網 http://www.kjueaiud.com/