<ruby id="5koa6"></ruby>

<ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

首頁: 測試技術　軟件測試工具　開源軟件測試技術　軟件測試開發技術　軟件質量保證　軟件測試時代服務　軟件測試專題與軟件測試期刊　軟件測試工程師職業發展　軟件測試業界新聞　軟件測試時代活動發布　

暫時沒有公告

首頁:軟件測試網 >> 軟件測試技術 >> 測試技術 >> 其它相關 >> 查看資訊

字號: 小中大 | 推薦給好友上一篇 | 下一篇

面向漢英機器翻譯的雙語語料庫的建設及其管理

發布: 2008-10-22 10:57 | 作者: 不詳 | 來源: 測試時代采編 | 查看: 137次 | 進入軟件測試論壇討論

關鍵字：雙語語料語料庫的設計和語料收集

一、引言
近年來，在語言信息處理的研究和開發中，單語和多語語料庫（以雙語語料庫居多）的作用日益突顯出來。特別是在機器翻譯研究中，人們提出了多種基于雙語語料庫的新方法，例如采用所謂的基于實例（Example-Based）的或基于存儲（Translation Memory）的機器翻譯方法，可以直接使用經過對齊的雙語語料改善機器譯文的質量。此外，也可以通過統計模型從雙語語料庫中獲取雙語詞典和翻譯模式，從而改進傳統的機器翻譯方法。除中文信息方面的應用之外，雙語語料庫的建設對于雙語詞典編纂、跨語言的對比研究也具有重要價值。
目前關于雙語或多語語料庫的研究大致可分為三類：一是研究雙語語料的對齊技術（Alignment），國內外學者就此提出多種策略和方法，現在已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993]；二是研究雙語語料的各種應用，如在基于統計的機器翻譯技術[Brown 1990]、基于實例的機器翻譯技術[Nagao 1984]，雙語詞典編纂[Klavans and Tzoukermann 1990]技術中，雙語語料庫都發揮著十分重要的作用；三是雙語語料庫的設計、采集、編碼和管理問題。目前比較著名的語料庫編碼方案有TEI 文本編碼標準以及CES標準，兩者均基于SGML標記語言。就前兩類研究來說，中國國內目前做了較多的跟蹤研究工作，而對于第三類研究，即雙語語料庫尤其是涉及漢語的雙語語料庫的建設、編碼和管理研究，探索工作似乎做的相對較少。與此相關，目前諭舛薊姑揮屑接泄叵低車�、经过深度加工的、以汉隅U從镅緣乃鎘锪峽獾謀ǖ饋?lt;/DIV>
北京大學計算語言學研究所、清華大學智能技術國家重點實驗室和中國科學院計算所三家單位聯合承擔了國家973課題——“面向新聞領域的漢英機器翻譯系統”的研制開發任務。系統決定采用基于多種方法的多引擎體系結構（將基于規則的方法與基于語料庫的方法相結合）。為此，需要建立一個具有一定規模的經過對齊處理的漢英雙語語料庫。本文將簡要介紹這樣一個服務于漢英機器翻譯的雙語語料庫的設計、收集、編碼和加工的情況。

二、語料庫的設計和語料收集

延伸閱讀

文章來源于領測軟件測試網 http://www.kjueaiud.com/

TAG: 建設語料庫漢英雙語機器翻譯

71/712 3 4 5 6 7 >

軟件測試論壇

領測軟件測試網最新更新

軟件測試技術相關文章

軟件測試培訓信息

最新軟件測試技術專題

最新領測軟件測試網新聞

軟件測試技術文章排行榜

編輯推薦
周排行
月排行

軟件測試技術分類最新內容

關于領測軟件測試網 | 領測軟件測試網合作伙伴 | 廣告服務 | 投稿指南 | 聯系我們 | 網站地圖 | 友情鏈接
版權所有(C) 2003－2010 TestAge（領測軟件測試網）|領測國際科技（北京）有限公司|軟件測試工程師培訓網 All Rights Reserved
北京市海淀區中關村南大街9號北京理工科技大廈1402室京ICP備10010545號-5
技術支持和業務聯系：info@testage.com.cn 電話：010-51297073

軟件測試 | 領測國際 | ISTQB | ISTQB官網 | TMMi | TMMi認證 | 國際軟件測試工程師認證 | 領測軟件測試網

老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月

<ruby id="5koa6"></ruby>

<ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>