<ruby id="5koa6"></ruby>

<ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

首頁: 測試技術　軟件測試工具　開源軟件測試技術　軟件測試開發技術　軟件質量保證　軟件測試時代服務　軟件測試專題與軟件測試期刊　軟件測試工程師職業發展　軟件測試業界新聞　軟件測試時代活動發布　

暫時沒有公告

首頁:軟件測試網 >> 軟件測試技術 >> 軟件測試開發語言 >> 數據庫 >> 查看資訊

字號: 小中大 | 推薦給好友上一篇 | 下一篇

面向漢英機器翻譯的雙語語料庫的建設及其管理

發布: 2009-9-28 10:30 | 作者: 不詳 | 來源: 領測軟件測試網 | 查看: 117次 | 進入軟件測試論壇討論

   按照XML標記語言的規定，總共為上述文檔定義了四個文檔類型定義(DTD)。分別用于描述（1）整個雙語語料庫；（2）中文基本標記文件和英文基本標記文件；（3）中文文本語言學標記文件和英文文本語言學標記文件；（4）中文英文對齊信息文件。
標記系統允許以一致和循序漸進的方式對語料進行由淺層到深層的信息標注。

四、語料的標注和對齊

語料庫標注工作取決于語料庫將以何種方式使用。我們希望部分語料庫資源能夠直接用于改善機器譯文的質量，也希望能夠從語料庫中學習到漢語到英語的翻譯知識，例如漢英雙語詞典、翻譯模式等。為此，目前我們正在進行或計劃對語料庫進行下列標注工作：
1)     中文分詞和詞性標注；
2)     英文詞性標注；
3)     中文和英文的專名標注（中文機構名識別已作了小規模的實驗）；
4)     中文、英文文本句子一級的對齊；
5)     中文專名和英文專名的對齊；
6)     中文詞語的詳細語法特征標注。這項標注將根據《現代漢語語法信息詞典規格說明書》[俞 1996]進行。在現代漢語語法信息詞典中，每類詞都可能擁有多達幾十個的語法特征信息，但在具體的上下文環境中，并非每個語法特征都有所表現，我們希望這項標注將有助于學習詞匯翻譯知識。目前對這項標注已經進行了一些小規模的實驗。
上述標注工作基本按照下面的過程進行：1)首先利用軟件工具進行自動標注；2) 人工校對標注結果。目前已有約10萬字的中文語料進行了分詞和詞性標注，對應的譯文進行了詞性標注，這部分語料的標注信息均已經過人工校對。另外，這部分語料句子對齊的校對工作也正在進行之中。

五、進一步的研究工作

在對10萬字語料的分詞和詞性標注、對齊的校對工作完成后，我們正在擴大處理語料的規模，對其余90萬字語料進行詞性標注和對齊加工。
在已有的標注信息基礎上，我們還將考慮對語料庫進行更深層次的標注工作，包括標注句子的句法結構和篇章的結構信息等。目前這方面的工作正在積極探索之中。
在應用方面，目前我們正在開發一個簡單的基于存儲的漢英機器翻譯引擎，并在兩個加工級別上使用具有不同標記深度的雙語語料。第一個級別是將沒有進行切詞、詞性標注的句子對齊結果直接作為資源用于機器翻譯，翻譯引擎根據用戶輸入的待譯句子在對齊的句對中進行檢索操作，如果命中，則直接輸出譯文；第二個級別是利用對齊的句對以及經過分詞和詞性標注的語料（其中一些特殊的詞語如數字、專有名詞等也經過對齊處理），翻譯引擎將這樣的句對視為一種框架結構，當用戶輸入待譯句子后，翻譯引擎利用輸入句子和這些框架結構進行匹配，如果匹配成功，則對其中的可以替換的詞匯進行替換，并修改相應英語譯文得到輸入句子的譯文，從而提高英語譯文的自然度。

參考文獻

[Brown 1990] Brown, P., et al, A statistical approach to machine translation, Computational linguistics, V16, No.2, 1990
[CES] Corpus Encoding Standard, http://www.cs.vassar.edu/CES/
[Gale 1993] Gale W., et al, A program for aligning sentence in bilingual corpora, Computational linguistics, V19, No.1, 1993
[Klavans 1990] Klavans, J., and Tzoukermann, E., The BICORD system, In Proceedings, 15th International Conference on Computational Linguistics.
[劉1995] 劉昕，周明，黃昌寧，基于長度算法的中英雙語文本對齊的試驗，陳力為等主編《計算語言學進展與應用》，清華大學出版社，1995
[Nagao 1984] Nagao, M., A Framework of a Mechanical Translation between Japanese and English by Analogy Principle, In: A.Elithorn et al eds. Artificial and Human Intelligence, NATO Publication
[TEI] TEI Guidelines for Electronic Text Encoding and Interchange, http://etext.virginia.edu
[俞1996] 俞士汶 ,朱學鋒等，《現代漢語語法信息詞典》規格說明書，《中文信息學報》，1996年第2期

Bilingual Corpus Construction and its Management
for Chinese-English Machine Translation

Chang-Baobao  Zhan-Weidong†  Zhang-Huarui
The Institute of Computational Linguistics, Peking University, 100871
†The Department of Chinese Language and Literature, Peking University, 100871

Abstract: In recent years, monolingual or multilingual (primarily bilingual) corpora are viewed as key resources in language information processing and language engineering projects. To support an ongoing Chinese-English machine translation project, a Chinese English bilingual corpus is being set up. This paper gives a brief discussion on construction of the corpus.

Keywords: Bilingual Corpus, Machine Translation, Corpus Markup, Corpus Annotation

面向漢英機器翻譯的雙語語料庫的建設及其管理

常寶寶詹衛東† 張華瑞
北京大學計算語言學研究所，北京，100871
†北京大學中文系，北京，100871

摘要: 近年來，在語言信息處理的研究和開發中，單語和多語語料庫（主要是雙語語料庫）的作用日益突顯出來。為了支持一項正在進行的漢英機器翻譯系統的開發，我們建立了一個漢英雙語語料庫。本文簡要介紹了該語料庫的建設和管理情況。

延伸閱讀

文章來源于領測軟件測試網 http://www.kjueaiud.com/

22/2<12

軟件測試論壇

領測軟件測試網最新更新

軟件測試技術相關文章

軟件測試培訓信息

最新軟件測試技術專題

最新領測軟件測試網新聞

軟件測試技術文章排行榜

編輯推薦
周排行
月排行

軟件測試技術分類最新內容

關于領測軟件測試網 | 領測軟件測試網合作伙伴 | 廣告服務 | 投稿指南 | 聯系我們 | 網站地圖 | 友情鏈接
版權所有(C) 2003－2010 TestAge（領測軟件測試網）|領測國際科技（北京）有限公司|軟件測試工程師培訓網 All Rights Reserved
北京市海淀區中關村南大街9號北京理工科技大廈1402室京ICP備2023014753號-2
技術支持和業務聯系：info@testage.com.cn 電話：010-51297073

軟件測試 | 領測國際 | ISTQB | ISTQB官網 | TMMi | TMMi認證 | 國際軟件測試工程師認證 | 領測軟件測試網

老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月

<ruby id="5koa6"></ruby>

<ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>