• <ruby id="5koa6"></ruby>
    <ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

    <progress id="5koa6"></progress>

  • <strong id="5koa6"></strong>
    • 軟件測試技術
    • 軟件測試博客
    • 軟件測試視頻
    • 開源軟件測試技術
    • 軟件測試論壇
    • 軟件測試沙龍
    • 軟件測試資料下載
    • 軟件測試雜志
    • 軟件測試人才招聘
      暫時沒有公告

    字號: | 推薦給好友 上一篇 | 下一篇

    在PHP中使用與Perl兼容的正則表達式

    發布: 2007-7-14 19:53 | 作者: 佚名    | 來源: 網絡轉載     | 查看: 14次 | 進入軟件測試論壇討論

    領測軟件測試網


    1 前言
    PHP被大量的應用于Web的后臺CGI開發,通常是在用戶數據數據之后得出某種結果,但是如果用戶輸入的數據不正確,就會出現問題,比如說某人的生日是\"2月30日\"!那應該怎么樣來檢驗暑假是否正確呢? 在PHP中加入了正則表達式的支持,讓我們可以十分方便的進行數據匹配。

    2 什么是正則表達式:
    簡單的說,正則表達式是一種可以用于模式匹配和替換的強大工具。在幾乎所有的基于UNIX/LINUX系統的軟件工具中找到正則表達式的痕跡,例如:Perl或PHP腳本語言。此外,JavaScript這種客戶端的腳本語言也提供了對正則表達式的支持,現在正則表達式已經成為了一個通用的概念和工具,被各類技術人員所廣泛使用。
    在某個Linux網站上面有這樣的話:\"如果你問一下Linux愛好者最喜歡什么,他可能會回答正則表達式;如果你問他最害怕什么,除了繁瑣的安裝配置外他肯定會說正則表達式。\"
    正如上面說的,正則表達式看起來非常復雜,讓人害怕,大多數的PHP初學者都會跳過這里,繼續下面的學習,但是PHP中的正則表達式有著可以利用模式匹配找到符合條件的字符串、判斷字符串是否合乎條件或者用指定的字符串來替代符合條件的字符串等強大的功能,不學實在太可惜了……

    3 正則表達式的基本語法:
    一個正則表達式,分為三個部分:分隔符,表達式和修飾符。
    分隔符可以是除了特殊字符以外的任何字符(比如\"/ !\"等等),常用的分隔符是\"/\"。表達式由一些特殊字符(特殊字符詳見下面)和非特殊的字符串組成,比如\"[a-z0-9_-]+@[a-z0-9_-.]+\"可以匹配一個簡單的電子郵件字符串。修飾符是用來開啟或者關閉某種功能/模式。下面就是一個完整的正則表達式的例子:
    /hello.+?hello/is
    上面的正則表達式\"/\"就是分隔符,兩個\"/\"之間的就是表達式,第二個\"/\"后面的字符串\"is\"就是修飾符。
    在表達式中如果含有分隔符,那么就需要使用轉義符號\"\\",比如\"/hello.+?\/hello/is\"。轉義符號除了用于分隔符外還可以執行特殊字符,全部由字母構成的特殊字符都需要\"\\"來轉義,比如\"\d\"代表全體數字。

    4 正則表達式的特殊字符:
    正則表達式中的特殊字符分為元字符、定位字符等等。
    元字符是正則表達式中一類有特殊意義的字符,用來描述其前導字符(即元字符前面的字符)在被匹配的對象中出現的方式。元字符本身是一個個單一的字符,但是不同或者相同的元字符組合起來可以構成大的元字符。
    元字符:
    大括號:大括號用來精確指定匹配元字符出現的次數,例如\"/pre{1,5}/\"表示匹配的對象可以是\"pre\"、\"pree\"、\"preeeee\"這樣在\"pr\"后面出現1個到5個\"e\"的字符串;蛘運"/pre{,5}/\"代表pre出現0此到5次之間。
    加號:\"+\"字符用來匹配元字符前的字符出現一次或者多次。例如\"/ac+/\"表示被匹配的對象可以是\"act\"、\"account\"、\"acccc\"等在\"a\"后面出現一個或者多個\"c\"的字符串。\"+\"相當于\"{1,}\"。
    星號:\"*\"字符用來匹配元字符前的字符出現零次或者多次。例如\"/ac*/\"表示被匹配的對象可以是\"app\"、\"acp\"、\"accp\"等在\"a\"后面出現零個或者多個\"c\"的字符串。\"*\"相當于\"{0,}\"。
    問號:\"?\"字符用來匹配元字符前的字符出現零次或者1次。例如\"/ac?/\"表示匹配的對象可以是\"a\"、\"acp\"、\"acwp\"這樣在\"a\"后面出現零個或者1個\"c\"的字符串。\"?\"在正則表達式中還有一個非常重要的作用,即\"貪婪模式\"。

    還有兩個很重要的特殊字符就是\"[ ]\"。他們可以匹配\"[]\"之中出現過的字符,比如\"/[az]/\"可以匹配單個字符\"a\"或者\"z\";如果把上面的表達式改成這樣\"/[a-z]/\",就可以匹配任何單個小寫字母,比如\"a\"、\"b\"等等。
    如果在\"[]\"中出現了\"^\",代表本表達式不匹配\"[]\"內出現的字符,比如\"/[^a-z]/\"不匹配任何小寫字母!并且正則表達式給出了幾種\"[]\"的默認值:
    [:alpha:]:匹配任何字母
    [:alnum:]:匹配任何字母和數字
    [:digit:]:匹配任何數字
    [:space:]:匹配空格符
    [:upper:]:匹配任何大寫字母
    [:lower:]:匹配任何小寫字母
    [:punct:]:匹配任何標點符號
    [:xdigit:]:匹配任何16進制數字

    另外下面這些特殊字符在轉義符號\"\\"轉義后代表的含義如下:
    s:匹配單個的空格符
    S:用于匹配除單個空格符之外的所有字符。
    d:用于匹配從0到9的數字,相當于\"/[0-9]/\"。
    w:用于匹配字母,數字或下劃線字符,相當于\"/[a-zA-Z0-9_]/\"。
    W:用于匹配所有與w不匹配的字符,相當于\"/[^a-zA-Z0-9_]/\"。
    D:用于匹配任何非10進制的數字字符。
    .:用于匹配除換行符之外的所有字符,如果經過修飾符\"s\"的修飾,\".\"可以代表任意字符。

    利用上面的特殊字符可以很方便的表達一些比較繁瑣的模式匹配。例如\"/\d0000/\"利用上面的正則表達式可以匹配萬以上,十萬一下的整數字符串。

    定位字符:
    定位字符是正則表達式中又一類非常重要的字符,它的主要作用是用于對字符在匹配對象中的位置進行描述。
    ^:表示匹配的模式出現在匹配對象的開頭(和在\"[]\"里面不同)
    $:表示匹配的模式出現在匹配對象的末尾
    空格:表示匹配的模式出現在開始和結尾的兩個邊界之一
    \"/^he/\":可以匹配以\"he\"字符開頭的字符串,比如hello、height等等;
    \"/he$/\":可以匹配以\"he\"字符結尾的字符串即she等;
    \"/ he/\":空格開頭,和^的作用一樣,匹配以he開頭的字符串;
    \"/he /\":空格結束,和$的作用一樣,匹配以he結尾的字符串;
    \"/^he$/\":表示只和字符串\"he\"匹配。

    括號:
    正則表達式除了可以用戶匹配,還可以用括號\"()\"來記錄需要的信息,儲存起來,給后面的表達式讀取。比如:
    /^([a-zA-Z0-9_-]+)@([a-zA-Z0-9_-]+)(.[a-zA-Z0-9_-])$/
    就是記錄郵件地址的用戶名,和郵件地址的服務器地址(形式為username@server.com之類的),在后面如果想要讀取記錄下來的字符串,只是需要用\"轉義符+記錄的次序\"來讀取。比如\"\\1\"就相當于第一個\"[a-zA-Z0-9_-]+\",\"\\2\"相當于第二個([a-zA-Z0-9_-]+),\"\\3\"就是第三個(.[a-zA-Z0-9_-])。但是在PHP中,\"\\"是一個特殊的字符,需要轉義,所以\"\1\"到了PHP的表達式中就應該寫成\"\\\\1\"。
    其他特殊符號:
    \"|\":或符號\"|\"和PHP里面的或一樣,不過是一個\"|\",而不是PHP的兩個\"||\"!意思就是可以是某個字符或者另一個字符串,比如\"/abcd|dcba/\"可能匹配\"abcd\"或者\"dcba\"。

    5 貪婪模式:
    前面在元字符中提到過\"?\"還有一個重要的作用,即\"貪婪模式\",什么是\"貪婪模式\"呢?
    比如我們要匹配以字母\"a\"開頭字母\"b\"結尾的字符串,但是需要匹配的字符串在\"a\"后面含有很多個\"b\",比如\"a bbbbbbbbbbbbbbbbb\",那正則表達式是會匹配第一個\"b\"還是最后一個\"b\"呢?如果你使用了貪婪模式,那么會匹配到最后一個\"b\",反之只是匹配到第一個\"b\"。
    使用貪婪模式的表達式如下:
    /a.+?b/
    /a.+b/U
    不使用貪婪模式的如下:
    /a.+b/
    上面使用了一個修飾符U,詳見下面的部分。

    6 修飾符:
    在正則表達式里面的修飾符可以改變正則的很多特性,使得正則表達式更加適合你的需要(注意:修飾符對于大小寫是敏感的,這意味著\"e\"并不等于\"E\")。正則表達式里面的修飾符如下:
    i :如果在修飾符中加上\"i\",則正則將會取消大小寫敏感性,即\"a\"和\"A\" 是一樣的。
    m:默認的正則開始\"^\"和結束\"$\"只是對于正則字符串如果在修飾符中加上\"m\",那么開始和結束將會指字符串的每一行:每一行的開頭就是\"^\",結尾就是\"$\"。
    s:如果在修飾符中加入\"s\",那么默認的\".\"代表除了換行符以外的任何字符將會變成任意字符,也就是包括換行符!
    x:如果加上該修飾符,表達式中的空白字符將會被忽略,除非它已經被轉義。
    e:本修飾符僅僅對于replacement有用,代表在replacement中作為PHP代碼。
    A:如果使用這個修飾符,那么表達式必須是匹配的字符串中的開頭部分。比如說\"/a/A\"匹配\"abcd\"。
    E:與\"m\"相反,如果使用這個修飾符,那么\"$\"將匹配絕對字符串的結尾,而不是換行符前面,默認就打開了這個模式。
    U:和問號的作用差不多,用于設置\"貪婪模式\"。

    7 PCRE相關的正則表達式函數:
    PHP的Perl兼容正則表達式提供的多個函數,分為模式匹配,替換和匹配數目等等:
    1、preg_match :
    函數格式:int preg_match(string pattern, string subject, array [matches]);
    這個函數會在string中使用pattern表達式來匹配,如果給定了[regs],就會將string記錄到[regs][0]中,[regs][1]代表使用括號\"()\"記錄下來的第一個字符串,[regs][2]代表記錄下來的第二個字符串,以此類推。preg如果在string中找到了匹配的pattern,就會返回\"true\",否則返回\"false\"。

    2、preg_replace :
    函數格式:mixed preg_replace(mixed pattern, mixed replacement, mixed subject);
    這個函數會使用將string中符合表達式pattern的字符串全部替換為表達式replacement。如果replacement中需要包含pattern的部分字符,則可以使用\"()\"來記錄,在replacement中只是需要用\"\\1\"來讀取。

    3、preg_split :
    函數格式:array preg_split(string pattern, string subject, int [limit]);
    這個函數和函數split一樣,區別僅在與split可以使用簡單正則表達式來分割匹配的字符串,而preg_split使用完全的Perl兼容正則表達式。第三個參數limit代表允許返回多少個符合條件的值。

    4、preg_grep :
    函數格式:array preg_grep(string patern , array input);
    這個函數和preg_match功能基本上,不過preg_grep可以將給定的數組input中的所有元素匹配,返回一個新的數組。

    下面舉一個例子,比如我們要檢查Email地址的格式是否正確:

    <?php
    function emailIsRight($email) {
    if (preg_match(\"^[_\.0-9a-z-]+@([0-9a-z][0-9a-z-]+\.)+[a-z]{2,3}$\",$email)) {
    return 1;
    }
    return 0;
    }
    if(emailIsRight(\'y10k@963.net\')) echo \'正確<br>\';
    if(!emailIsRight(\'y10k@fffff\')) echo \'不正確<br>\';
    ?>

    上面的程序會輸出\"正確<br>不正確\"。

    8.PHP中的Perl兼容正則表達式和Perl/Ereg正則表達式的區別:
    雖然叫做“Perl兼容正則表達式”,但是和Perl的正則表達式相比,PHP的還是由一些不同,比如修飾符“G”在Perl里面代表全部匹配,但是在PHP中沒有加入對這個修飾符的支持。
    還有就是和ereg系列函數的區別,ereg也是PHP中提供的正則表達式函數,不過和preg相比,要弱上很多。

    1、ereg里面是不需要也不能使用分隔符和修飾符的,所以ereg的功能比preg要弱上不少。
    2、關于\".\":點在正則里面一般是除了換行符以外的全部字符,但是在ereg里面的\".\"是任意字符,即包括換行符!如果在preg里面希望\".\"能夠包括換行符,可以在修飾符中加上\"s\"。
    3、ereg默認使用貪婪模式,并且不能修改,這個給很多替換和匹配帶來麻煩。
    4、速度:這個或許是很多人關心的問題,會不會preg功能強大是以速度來換取的?不用擔心,preg的速度要遠遠比ereg快,筆者做了一個程序測試

    time test:

    PHP代碼:

    <?php
    echo \"Preg_replace used time:\";
    $start = time();
    for($i=1;$i<=100000;$i++) {
    $str = \"ssssssssssssssssssssssssssss\";
    preg_replace(\"/s/\",\"\",$str);
    }
    $ended = time()-$start;
    echo $ended;
    echo \"
    ereg_replace used time:\";
    $start = time();
    for($i=1;$i<=100000;$i++) {
    $str = \"ssssssssssssssssssssssssssss\";
    ereg_replace(\"s\",\"\",$str);
    }
    $ended = time()-$start;
    echo $ended;
    echo \"
    str_replace used time:\";
    $start = time();
    for($i=1;$i<=100000;$i++) {
    $str = \"sssssssssssssssssssssssssssss\";
    str_replace(\"s\",\"\",$str);
    }
    $ended = time()-$start;
    echo $ended;
    ?>
    結果:
    Preg_replace used time:5
    ereg_replace used time:15
    str_replace used time:2

    str_replace因為不需要匹配所以速度非?,而preg_replace的速度比ereg_replace要快上不少。

    9.關于PHP3.0對于preg的支持:
    在PHP 4.0中默認加入了preg支持,但是在3.0中確沒有。如果在3.0中希望使用preg函數,必須加載php3_pcre.dll文件,只要在php.ini的extension部分設置加入\"extension = php3_pcre.dll\"然后從新啟動PHP就可以了!
    其實正則表達式還常用于UbbCode的實現,很多PHP論壇都使用了這個方法(比如zForum zphp.com或者vB vbullent.com),但是具體的代碼比較長。

    延伸閱讀

    文章來源于領測軟件測試網 http://www.kjueaiud.com/


    關于領測軟件測試網 | 領測軟件測試網合作伙伴 | 廣告服務 | 投稿指南 | 聯系我們 | 網站地圖 | 友情鏈接
    版權所有(C) 2003-2010 TestAge(領測軟件測試網)|領測國際科技(北京)有限公司|軟件測試工程師培訓網 All Rights Reserved
    北京市海淀區中關村南大街9號北京理工科技大廈1402室 京ICP備10010545號-5
    技術支持和業務聯系:info@testage.com.cn 電話:010-51297073

    軟件測試 | 領測國際ISTQBISTQB官網TMMiTMMi認證國際軟件測試工程師認證領測軟件測試網

    老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月

  • <ruby id="5koa6"></ruby>
    <ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

    <progress id="5koa6"></progress>

  • <strong id="5koa6"></strong>