領測軟件測試網
z\$ty"?Q(Wn6rl
D9uf fb,H,e[bo 軟件測試技術網 p E@'c
k 語料庫建設是一項工作量極大的工作,因為一個有實際應用價值的語料庫決不是任意文本的任意集合,其文本類型、大小以及語料的構成都必須根據應用需求,經過仔細的設計,只有這樣才能保證所投入的工作是值得的。我們認為,設計一個雙語語料庫,首先應該考慮語料庫的應用目標。語料的收集、語料的構成以及對語料的加工應該緊緊圍繞語料庫的應用目標進行。作為服務于一個面向新聞領域的漢英機器翻譯系統的雙語語料庫而言,在語料的收集、加工等方面,應該跟服務于其他目的(比如語言研究)的語料庫有所區別。服務于漢英機器翻譯的語料庫是一個專用的語料庫,而不是一個通用的語料庫。在這個前提下,我們不強調語料庫中的語料對漢語文本的覆蓋性。在對語料的內容、語料庫中的文本類型、文本的創作時間、語料庫的結構進行選擇時,應以是否有助于面向新聞領域的漢英機器翻譯為準則進行。最為理想的情況是,語料庫中的語料能夠形成全部新聞語料的一個統計樣本。然而構造一個這樣的語料庫并非易事,這需要有足夠的機器可讀的新聞語料作為取樣基礎。結合上述理論思考以及現實條件下的電子文本的實際情況,我們確定了下面的語料收集原則:
$C0O:j"l0R7o8C#o4t1s+M1) 收入語料庫的文本最好是報道類型,不過也可以包含一些具有良好英語譯文的同新聞報道在內容和結構上具有相似性的語言材料。因此除了新聞報道類型,我們也收集了一些新聞發布會文告、政府白皮書和一些雜文以及它們的英語譯文。
EdA3e7b``2) 雙語材料最好以漢語作為源語言,因為語料庫的服務對象是漢英機器翻譯系統,但也酌情收集了一些具有非常流暢自然的中文翻譯的英語材料。
軟件測試技術網$[3G1jj(F{V3) 文本應以全文形式收入語料庫,這將有益于篇章知識的獲取和學習,一個實用的機器翻譯系統最終必須面對全文的翻譯。
軟件測試技術網 N)e/e7V`Fas~&Q)g4) 就創作時間而言,所有收入的文本應當是最近幾年的文本,這樣才能夠反映當下語言的實際使用情況。
(N'a6Gex4d/P"yk 軟件測試技術網NT$K*yx'_在上述原則的指導下,我們收集了大約100萬字的漢語全文語料及其英語譯文。這些語料基本來源于國際互聯網。大致可分為四類:新聞報道、新聞發布會文稿、白皮書以及雜文。其構成比例如圖1所示:
P!Y
老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月