三、語料庫的編碼
管理這些平行語料的理想方式是設計一個專用管理系統。語料庫中所有語料均需按照同樣的方式編碼或標記。這可以使得語料庫能夠獨立于軟件平臺和具體的應用程序,具有教強的數據可交換性。目前國際上有兩個著名的語料庫標記標準建議方案,一個是正處在開發之中的語料庫編碼標準(CES),另外一個是文本編碼標準TEI。TEI已為一些著名語料庫所采用,例如英國國家語料庫(BNC)。這兩個標準都是基于SGML標記語言而制定的?紤]到我們的語料的主要來源是國際互聯網,大部分語料是以超文本標記語言(HTML)形式存在的。因此,如何對語料庫進行編碼存在三種選擇:(1)采用國際上業已制定的標準方案;(2)直接采用互聯網上廣泛使用的超文本標記語言(HTML),這樣似乎可以有效減少工作量;(3)制定一個新的標記方案。
方案(2)盡管可以減少工作量,但并不可行。首先,超文本標記語言是目前世界上最為流行的網頁標記語言,不同的支持公司都對其作了不同的擴充,語法要求并不嚴格,常?梢杂貌煌臉擞浶问絹順擞洸煌膬热,因而不適合用來標記我們的語料庫。其次,超文本標記語言不做內容和顯示的區分,其中既包含用于內容的標記元素,也包含用于顯示的標記元素。因而很多情況下,網頁作者因為顯示效果而放棄使用內容標記元素。例如在我們收集的語料中,文本標題很少使用
、 等標記。
再看方案(1),盡管CES和TEI是專為標記語料庫而設計的國際標準方案,但二者均面向通用目的,即使選擇一個由較少的必要元素組成的子集,也會因過于復雜而難以掌握。并且其中許多元素對于我們的應用意義不大,同時對一些我們需要詳細標記的信息,如新聞報道的特有結構,卻又沒有合適的標記可以使用(即有“大炮打蚊子”之嫌)。另外,作為二者基礎的SGML標記語言,也一直因為過于復雜而難以得到信息處理界(包括IT產業界)的廣泛使用,開發一個全面的SGML分析器也不是一個短時期內可以完成的工作。
經過上述分析,為了獲得一個簡單的但能滿足我們需要的編碼方案,我們選擇了方案(3),即參照CES開發一個新的標記系統。這個標記體系不力求覆蓋所有文檔類型,但要求對于我們所關心的文檔類型有足夠的支持,對其他文檔類型僅僅要求有一般性支持。這個標記體系基于目前正日益流行的標記語言XML,從而保證我們的標記系統有廣泛的軟件支持。
再看方案(1),盡管CES和TEI是專為標記語料庫而設計的國際標準方案,但二者均面向通用目的,即使選擇一個由較少的必要元素組成的子集,也會因過于復雜而難以掌握。并且其中許多元素對于我們的應用意義不大,同時對一些我們需要詳細標記的信息,如新聞報道的特有結構,卻又沒有合適的標記可以使用(即有“大炮打蚊子”之嫌)。另外,作為二者基礎的SGML標記語言,也一直因為過于復雜而難以得到信息處理界(包括IT產業界)的廣泛使用,開發一個全面的SGML分析器也不是一個短時期內可以完成的工作。
經過上述分析,為了獲得一個簡單的但能滿足我們需要的編碼方案,我們選擇了方案(3),即參照CES開發一個新的標記系統。這個標記體系不力求覆蓋所有文檔類型,但要求對于我們所關心的文檔類型有足夠的支持,對其他文檔類型僅僅要求有一般性支持。這個標記體系基于目前正日益流行的標記語言XML,從而保證我們的標記系統有廣泛的軟件支持。