使用 UNIX 進行文本處理_Unix系統

使用 UNIX 進行文本處理

發表于：2007-05-26來源：作者：點擊數：標簽：

UNIX 起源于簡單的文本處理，并且在它的命令行環境中保留了功能最強大的文本處理工具之一。通過將一系列簡單的命令組合在一起，可以完成復雜的文本轉換，UNIX 提供的工具允許您構建幾乎任何所需的文本處理引擎。引言在 UNIX 誕生之初，人們不大熟悉這種新

UNIX® 起源于簡單的文本處理，并且在它的命令行環境中保留了功能最強大的文本處理工具之一。通過將一系列簡單的命令組合在一起，可以完成復雜的文本轉換，UNIX 提供的工具允許您構建幾乎任何所需的文本處理引擎。

引言

在 UNIX® 誕生之初，人們不大熟悉這種新的操作系統，但他們很快找到了適當的切入點，大學中的研究人員需要一種像樣的文本處理環境。因為在那個時候，計算機的處理速度和內存容量有限，所以程序必須很小，并且相對比較簡單。這樣就產生了 UNIX 中著名的設計思想：“一組工具協同工作，以便完成一項任務”。通過 UNIX 管道將幾種很小的、但功能強大的文本處理工具組合在一起，可以對文本進行各種方式的轉換和操作。

在本文中，您將簡要了解從文件和程序中獲得文本、使用 tr 命令對其進行簡單的轉換、使用 sed 命令進行復雜的搜索和替換操作。然后，您將使用 Perl 編程和腳本語言再次完成這些操作，這樣一來您就可以認識到，Perl 的功能非常強大，它可以替代 tr 和 sed 命令。

開始之前

如果您希望按照本文中的示例進行實驗，請確保您可以使用 UNIX 命令行環境。這可能是本地計算機中的終端模擬程序（在現代桌面中通常稱為終端，如果您習慣使用 Windows®，那么可以使用 Cygwin）、或通過 SSH 訪問的遠程系統。

本文的示例所使用的 Shell 語法適用于 GNU Bash，有關需要使用的特定語法，請參考您的 Shell 手冊（或者可以考慮使用 Bash）。

對文本進行各種操作

在開始使用 UNIX 的各種文本實用程序操作文本之前，需要了解如何獲得文本。并且在進行這項工作之前，需要了解 UNIX 的標準輸入/輸出 (I/O) 流。

標準 C 庫（因而，每個 UNIX 程序）定義了三種標準流：輸入、輸出和錯誤。有時將它們稱為 stdin、stdout 和 stderr，這是在所有 C 程序中用來表示它們的全局變量。

當您在 Shell 中使用 > 操作符將程序輸出重定向到文件時，就可以將它的標準輸出 (stdout) 流發送到這個文件。例如：ls > this-dir 將 ls 的輸出發送到一個名為 this-dir 的文件。

當您在 Shell 中使用 < 操作符將程序輸入重定向到文件時，就可以將該文件中的內容輸入到該程序的標準輸入 (stdin) 流。例如：sort < this-dir 可以從名為 this-dir 的文件中讀取內容，并將其作為 sort 命令的輸入。

另一個常用于重定向標準流的操作符是“|”（管道）操作符，它可以將左側程序的標準輸出流連接到右側程序的標準輸入流。例如：ls | sort 和前面的兩個示例完成相同的任務，并且無需臨時文件，ls 的輸出直接進入 sort 命令。

如果您仔細觀察，那么可能會發現，前面的這些示例中并沒有出現標準錯誤 (stderr) 流。與標準輸出流一樣，可以對 stderr 進行重定向或使用管道進行傳輸，但是您需要告訴 Shell 您希望處理 stderr 而不是 stdout。

可以使用 2> 操作符將標準錯誤流重定向到文件。在處理生成有用的錯誤輸出的命令時，您經常會看到這個操作符，比如用于編譯 UNIX 程序的 make 工具：make 2> build-errors。

這個命令運行了 make，并將任何錯誤信息發送到 build-errors 文件。與之類似，您可以使用 2| 將 stderr 通過管道傳遞到另一個程序。

如果您對具體的細節感興趣，那么其他的流也有與之對應的數字，盡管很少使用到它們（0 表示標準輸入，1 表示標準輸出），除了在一個非常常見的操作符中。在清單 1 所示的示例中，2>&1 操作符將標準錯誤流連接到標準輸出流。與 > 操作符組合在一起，您可以使 stderr 和 stdout 輸出到相同的文件中。

清單 1. 將標準錯誤流連接到標準輸出流

make > build-output 2>&1

命令

有兩個常用來生成文本輸出的標準 UNIX 命令：cat 和 echo。

cat 命令讀取參數中指定的每個文件，并將這些文件的內容寫入到 stdout。echo 命令將其參數寫入到 stdout。您常常會發現它們作為更復雜的命令管道中的一部分（請參見清單 2）。

清單 2. 使用 cat 和 echo

cat file1 file2 ... filen
            echo arguments...

但如果您只需要文件中開頭的部分或結尾的部分，那又應該如何呢？cat 有兩種可用來完成這種任務的變種，稱為 head 和 tail（請參見清單 3），它們分別可以顯示開頭的或結尾的 10 行內容，您可以使用 -n 選項為它們指定不同的行數。
清單 3. 使用 head 和 tail

head file1 file2 ... filen
            tail file1 file2 ... filen

tail 命令還有一個有用的選項 -f (follow)。該選項告訴 tail 打印指定文件的最后 10 行，但是它不僅打印已有的內容，還會等待該文件中將要出現的更多內容，并對其進行打印。您可以使用該選項接著顯示錯誤日志中的輸出，例如，要在將錯誤寫入到日志的同時查看這些錯誤。

轉換文本

既然您已經了解了至少 5 種生成文本的方式，下面讓我們來看一些進行簡單文本轉換的示例。

tr 命令允許您將一個集合中的字符轉換為另一個集合中相應的字符。讓我們來看一些示例（清單 4），以了解其工作方式。

清單 4. 使用 tr 對字符進行轉換

echo "a test" | tr t p
            echo "a test" | tr aest 1234
            echo "a test" | tr -d t
            echo "a test" | tr '[:lower:]' '[:upper:]'

研究這些命令的輸出結果（請參見清單 5），可以看出 tr 的工作方式（提示：它直接使用第二個集合中相應的字符來代替第一個集合中的字符）。

清單 5. tr 進行了哪些工作？

chrish@dhcp3 [199]$ echo "a test" | tr t p
            a pesp
            chrish@dhcp3 [200]$ echo "a test" | tr aest 1234
            1 4234
            chrish@dhcp3 [201]$ echo "a test" | tr -d t
            a es
            chrish@dhcp3 [202]$ echo "a test" | tr '[:lower:]' '[:upper:]'
            A TEST

第一個和第二個示例都很簡單，將一個字符替換為另一個字符。第三個示例使用了 -d 選項 (delete)，它從輸出中徹底刪除了指定的字符。這個選項通常用來從 DOS 文本文件中刪除回車，以將其轉換為 UNIX 文本文件（請參見清單 6）。最后一個示例使用了字符類（[: :] 中的名稱），以將所有的小寫字母轉換為大寫字母?？梢浦膊僮飨到y接口標準（POSIX 標準）字符類包括：

alnum：字母數字字符
alpha：字母字符
cntrl：控制（非打?。┳址?
digit：數字字符
graph：圖形字符
lower：小寫字母字符
print：可打印字符
punct：標點符號
space：空白字符
upper：大寫字符
xdigit：十六進制字符

清單 6. 將 DOS 文本文件轉換為 UNIX 文本文件

tr -d '\r' < input_dos_file.txt > output_unix_file.txt

盡管 tr 命令表示了 C locale 環境變量（有關這些環境變量更多的信息，可以使用 man locale），但是不要指望它能夠對 UTF-8 文檔進行任何合理的操作，如能夠使用合適的大寫字符替換小寫重音字符。tr 命令最適合于 ASCII 和其他標準 C 區域設置。

使用 sed 進行復雜的搜索和替換

tr 命令所提供的單字符替換（或刪除）功能非常適用于特定的解決方案，但是這些功能并不是很靈活。如果您需要將一個單詞替換為另一個單詞，或將連續的空格和制表符替換為一個空格，那又應該怎么辦呢？

幸運的是，您可以使用 sed 命令 (Stream EDitor)，它提供了功能強大的正則表達式 匹配和替換。正則表達式是使用各種構件構建的復雜模式規范，并且隨著模式變得越來越復雜，它看起來就像是調制解調器的線路噪聲。本文并不打算詳細地介紹正則表達式，但是在本文中，您將簡單了解 sed 所使用的一些有用的模式。

在清單 7 中，您可以看到 sed 命令的基本格式。模式是用來匹配輸入（通?？梢允褂霉艿缽牧硪粋€程序輸入，或者重定向于文本文件）的正則表達式，替換是指插入某些文本并用其代替那些與模式相匹配的文本。標志是用來控制替換行為的單個字符。最常用的標志是 g（將替換應用于所有匹配模式的非重疊實例，而不僅僅是第一個匹配項）。

實際上，模式和替換可以是各種各樣的內容，并且它們之間不需要像在 tr 命令中那樣具有 1:1 的關系。

清單 7. sed 命令

            sed -e s/pattern/replacement/flags

最簡單的模式是一個或多個字符組成的字符串。如清單 8 所示，例如將單詞 one 替換為單詞 another。

清單 8. 最簡單的正則表達式

            chrish@dhcp3 [334]$ echo "Replace one word" | sed -e s/one/another/
            Replace another word

可以使用方括號將一個或多個字符括起來，以創建一個集合，該集合中的任何字符都可以匹配。如清單 9 所示，讓我們將所有的元音字母替換為下劃線。

清單 9. 匹配集合中的任何字符

            chrish@dhcp3 [338]$ echo "This is a test" | sed -e s/[aeiouy]/_/g
            Th_s _s _ t_st

請注意，示例中使用了 g 標志，以便將模式/替換應用于所有的匹配項，而不僅僅是第一個匹配項。

sed 命令也可以理解 tr 命令所支持的那些命名字符類，POSIX 對這些字符類進行了定義，但是本文中的語法稍有不同。清單 10 顯示了如何替換任何空白字符（制表符、空格等等）：

清單 10. 根據命名字符類匹配內容

            chrish@dhcp3 [345]$ echo -e 'hello\tthere'
            hello   there
            chrish@dhcp3 [346]$ echo -e 'hello\tthere' | sed -e 's/[[:space:]]/, /'
            hello, there

echo 命令的 -e 標志用來告訴該命令擴展 C 風格的轉義字符，在本示例中，它會把 \t 轉換為制表符。

您還可以使用“.”（點號）匹配任何單個的字符。如果您需要處理一些略有變化的數據，或者包含難以進行轉義的特殊字符的數據，那么使用這個符號是非常方便的。例如，在匹配引號時，我經常使用 .，所以我不需要在 Shell 中對引號進行轉義。清單 11 顯示了一個正則表達式初學者在使用這個模式時出現的問題。

清單 11. 這可能并不是想要的結果

            chrish@dhcp3 [339]$ echo "This is a test" | sed -e s/./_/g
            ______________

既然您已經了解了這些非?；镜膬热?，下面介紹一些附加模式修飾符，要使用高級正則表達式，您現在還可以使用 -E 選項代替 -e。? 字符表示匹配前面模式元素的零個或一個實例，* 字符表示匹配前面元素的零個或多個實例。+ 字符表示匹配一個或多個前面的元素。^ 字符匹配行首，而 $ 則匹配行尾。清單 12 顯示了實際應用中的情況。

清單 12. 實際應用中的多個匹配項

            chrish@dhcp3 [356]$ echo "hellooooo" | sed -E 's/o?$/_/g'
            helloooo_
            chrish@dhcp3 [357]$ echo "hellooooo" | sed -E 's/o*$/_/g'
            hell_
            chrish@dhcp3 [358]$ echo "hellooooo" | sed -E 's/o+$/_/g'
            hell_

如果使用圓括號將模式元素括起來，您可以在替換字符串中使用匹配的內容。這些元素稱為組，它們使得正則表達式搜索和替換操作的功能變得非常強大，但是卻很難理解。例如，在清單 13 中，您匹配一個或多個 l (el) 字符，并且后面跟著零個或多個 o 字符。依次使用第二組和第一組中的內容對其進行替換，實際上是對它們進行交換。請注意這個模式中各個組的引用方法，即反斜杠加上該組的序號。

清單 13. 匹配組

            chrish@dhcp3 [361]$ echo "hellooooo" | sed -E 's/(l+)(o*)$/\2\1/g'
            heoooooll

通過在大括號中指定匹配的數目，您可以匹配特定數目的模式。例如，模式 o{2} 將匹配兩個（僅僅兩個）o 字符。

對了，還有最后一個內容，通過使用 \ 字符對其進行轉義，您可以在模式中使用這些特殊字符的字面內容（即作為其本身）。

將其組合在一起

既然已經向您介紹了一些非常簡單的正則表達式，那么讓我們來嘗試一些有用的內容。給定 ls -l（文件長清單）的輸出，您將從中提取權限信息、大小和名稱。清單 14 顯示了要進行處理的 ls -l 輸出示例。

清單 14. ls -l 的典型輸出

            chrish@dhcp3 [365]$ ls -l | tail
            drwx------   3 chrish    wheel   102 Jun 14 21:38 gsrvdir501
            drwxr-xr-x   2 chrish    wheel    68 Jun 16 16:01 hsperfdata_chrish
            drwxr-xr-x   3 root      wheel   102 Jun 14 23:38 hsperfdata_root
            -rw-r--r--   1 root      wheel   531 Jun 14 10:17
            illustrator_activation.plist
            -rw-r--r--   1 root      wheel   531 Jun 14 10:10 indesign_activation.plist
            -rw-------   1 nobody    wheel    24 Jun 16 16:01 objc_sharing_ppc_4294967294
            -rw-------   1 chrish    wheel   132 Jun 16 23:50 objc_sharing_ppc_501
            -rw-------   1 security  wheel    24 Jun 16 10:04 objc_sharing_ppc_92
            -rw-r--r--   1 root      wheel   531 Jun 14 10:05 photoshop_activation.plist
            -rw-r--r--   1 root      wheel   928 Jun 14 10:17 serialinfo.plist

正如您所看到的，這里一共有 7 列：

權限
鏈接的數目
屬主
組
大小
最后的修改時間
名稱

讓我們來建立一些正則表達式，以匹配其中的每一列：

.([r-][w-][x-]){3}—權限（使用 . 匹配第一個字符，因為它可能是幾個不同的特殊字符中的任何一個。）
[[:digit:]]+—鏈接的數目
[A-Za-z0-9_\-\.]+ -—屬主（您還可以使用這個模式進行組匹配。）
[[:digit:]]+—大小
.{3} [0-9 ]{2} [0-9 ][0-9]:[0-9][0-9]—修改時間（您可以對這個模式進行一些簡化，因為所有的文件都在 6 月份進行的修改，所以您可以確切地指定月份的名稱。）
.+$—名稱（在這些內容之后，您需要匹配所有的字符，直到行尾。）

在上述模式之間，必須使用 [[:space:]]+ 對它們進行連接，因為您并不知道這些列之間究竟是使用空格或制表符，還是兩者的組合進行分隔。您還需要將權限、大小和名稱放到組中，以便可以在替換中使用它們。如清單 15 所示，正則表達式很快就變得難以理解。

清單 15. 完成后的正則表達式實在難以理解！

            (.([r-][w-][x-]){3})[[:space:]]+[[:digit:]]+[[:space:]]+([A-Za-z0-9_\-\.]
            +[[:space:]]+){2}([[:digit:]]+)[[:space:]]+.{3} [0-9 ]{2} [0-9
            ][0-9]:[0-9][0-9][[:space:]]+(.+)$

如果您仔細研究這個可怕的正則表達式模式，您將發現 5 個組：

完整的權限塊
權限塊中最后匹配的 rwx 組
組（該模式的屬主/組部分中最后匹配的內容）
大小
名稱

在清單 16 中，您將更改 ls -l 的輸出以顯示文件名、權限和大小。

清單 16. 對輸出進行重組

            chrish@dhcp3 [382]$ ls -l | tail | sed -E
            's/(.([r-][w-][x-]){3})[[:space:]]+[[:digit:]]+[[:space:]]+([A-Za-z0-9_\-\.
            ]+[[:space:]]+){2}([[:digit:]]+)[[:space:]]+.{3} [0-9 ]{2} [0-9
            ][0-9]:[0-9][0-9][[:space:]]+(.+)$/\5 (\1) has \4 bytes of data/'
            gsrvdir501 (drwx------) has 102 bytes of data
            hsperfdata_chrish (drwxr-xr-x) has 68 bytes of data
            hsperfdata_root (drwxr-xr-x) has 102 bytes of data
            illustrator_activation.plist (-rw-r--r--) has 531 bytes of data
            indesign_activation.plist (-rw-r--r--) has 531 bytes of data
            objc_sharing_ppc_4294967294 (-rw-------) has 24 bytes of data
            objc_sharing_ppc_501 (-rw-------) has 132 bytes of data
            objc_sharing_ppc_92 (-rw-------) has 24 bytes of data
            photoshop_activation.plist (-rw-r--r--) has 531 bytes of data
            serialinfo.plist (-rw-r--r--) has 928 bytes of data

成功了！您已經完成了對輸出結果的轉換。

使用 Perl 完成相應的工作

Perl 編程和腳本語言（請參見參考資料部分）的功能非常強大，通?？捎脕砣〈懊娼榻B的 tr 和 sed 命令。通?？梢栽诿钚兄兄苯虞斎牒喍痰?Perl 程序，有時它可以完成比 tr 或 sed 命令行更多的操作。

Perl 的 -p 選項告訴它讀取和處理標準輸入中的每行內容，并將結果打印到標準輸出。-e 選項允許您在命令行中指定一個 Perl 表達式（實際上是一個程序）。

清單 17 顯示了如何使用 Perl 完成清單 5 中的示例。

清單 17. 使用 Perl 完成 tr 的工作

            chrish@dhcp3 [248]$ echo a test | perl -p -e 'tr/t/p/;'
            a pesp
            chrish@dhcp3 [249]$ echo a test | perl -p -e 'tr/aest/1234/;'
            1 4234
            chrish@dhcp3 [250]$ echo a test | perl -p -e 'tr/t//d;'
            a es
            chrish@dhcp3 [251]$ echo a test | perl -p -e 'tr/a-z/A-Z/;'
            A TEST

Perl 的 tr 語句具有不同的語法，它更像 sed 的搜索和替換表達式。另請注意，您在最后一個示例中指定了小寫和大寫字符的范圍。

Perl 中的正則表達式支持非常優秀，并且上面的 sed 示例可以作為有效的 Perl 語句正常工作。清單 18 使用 Perl 顯示了清單 16 中的 ls -l 示例，除了 Perl 命令行語法之外，不需要對其他的內容進行更改。

清單 18. 使用 Perl 重組 ls 的輸出

            chrish@dhcp3 [384]$ ls -l | tail | perl -p -e
            's/(.([r-][w-][x-]){3})[[:space:]]+[[:digit:]]+[[:space:]]+([A-Za-z0-9_\-\.]
            +[[:space:]]+){2}([[:digit:]]+)[[:space:]]+.{3} [0-9 ]{2} [0-9
            ][0-9]:[0-9][0-9][[:space:]]+(.+)$/\5 (\1) has \4 bytes of data/'
            gsrvdir501 (drwx------) has 102 bytes of data
            hsperfdata_chrish (drwxr-xr-x) has 68 bytes of data
            hsperfdata_root (drwxr-xr-x) has 102 bytes of data
            illustrator_activation.plist (-rw-r--r--) has 531 bytes of data
            indesign_activation.plist (-rw-r--r--) has 531 bytes of data
            objc_sharing_ppc_4294967294 (-rw-------) has 24 bytes of data
            objc_sharing_ppc_501 (-rw-------) has 132 bytes of data
            objc_sharing_ppc_92 (-rw-------) has 24 bytes of data
            photoshop_activation.plist (-rw-r--r--) has 531 bytes of data
            serialinfo.plist (-rw-r--r--) has 928 bytes of data

這樣做的優點在于，您可以使用 sed 或 Perl 完善正則表達式，并且在只包含其中某一個的系統中，您仍然可以它們。使用 Perl，您可以獲得全方位的編程結構，可以充分地利用它們進行更復雜的文本處理。

總結

使用像 sed 和 Perl 這樣功能強大的工具，以及神奇的正則表達式，您可以直接通過 UNIX 命令行輕松地完成復雜的文本處理任務。這使得您可以有效地將多個命令組合在一起，以正確地完成文本處理工作。

原文轉自：http://www.kjueaiud.com

相關文章

漫畫賞析：Linux 內核到底長啥樣

Linux的進程優先級

Windows原生運行Linux的技術細節

Linux常用性能調優工具索引

top使用技巧

bash遍歷目錄

周排行

月排行

下載

全網最詳細的接口測試實戰

先測試再開發？TDD測試驅動

自動化測試架構

軟件測試架構師的知識能力

大數據平臺測試方法

用不同的測試模型來構建測

當軟件測試遇上ChatGPT：軟件

全網最詳細的接口測試實戰

先測試再開發？TDD測試驅動

自動化測試架構

軟件測試架構師的知識能力

大數據平臺測試方法

用不同的測試模型來構建測

當軟件測試遇上ChatGPT：軟件

MBT基于模型的測試介紹資料

iso29119相關介紹性資料

HP QTP 10 中文版官方中文補丁

HP QTP 10 英文版下載地址

HP ALM 11 官方中文版下載地址

Quality Center 9.0中文版下載地

HttpWatch Basic Edition Version 7.

WIN2003+ORACLE11G+QC11(ALM11) 安裝

WIN2003+SQL2005(SP3)+QC11(ALM11) 安

軟件測試沙龍 More>>

新浪微博 More>>

熱門標簽

功能測試

性能測試

安全測試

本地化測試

游戲測試

web測試

單元測試

敏捷測試

測試用例

測試模版

測試管理

測試工具

《測試團隊的招聘與管理

《我們應該如何構建我們

軟件測試 > 測試開發技術 > 軟件測試環境搭建 > Unix系統 >

使用 UNIX 進行文本處理