• <ruby id="5koa6"></ruby>
    <ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

    <progress id="5koa6"></progress>

  • <strong id="5koa6"></strong>
    • 軟件測試技術
    • 軟件測試博客
    • 軟件測試視頻
    • 開源軟件測試技術
    • 軟件測試論壇
    • 軟件測試沙龍
    • 軟件測試資料下載
    • 軟件測試雜志
    • 軟件測試人才招聘
      暫時沒有公告

    字號: | 推薦給好友 上一篇 | 下一篇

    可愛的Python:了解 DParser for Python

    發布: 2007-7-04 20:06 | 作者: admin | 來源:  網友評論 | 查看: 15次 | 進入軟件測試論壇討論

    領測軟件測試網   首先初步了解 DParser 這一由 J. Plevyak 編寫的簡單而強大的解析工具。然后了解用于 Python 的 DParser,它為 Python 程序員提供了一個訪問 DParser 的無縫接口,并看看它與上一期中介紹的解析器的比較。語法規則以類似于 Spark 或 PLY 的方式通過 Python 函數文檔字符串加入到 DParser 中。
      
      有很多可用的 Python 解析器程序庫。我已經在本專欄中討論過 mx.TextTools、SimpleParse 和 SPARK,并在我的書中介紹了 PLY(請參閱 參考資料,獲得這些文檔的鏈接)。無需考慮,我也知道有 PyGgy、Yapps、PLEX、PyLR、PyParsing 和 TPG,而且我還模糊地記得讀過半打其他解析器的聲明。用戶可能會對此門類感到失落,不是因為缺少高質量程序庫,而是太多了。
      
      DParser 與所有其他解析器的不同之處是什么?是這樣,類似于 PLY 和 Spark,用于 Python 的 DParser 使用函數文檔字符串來表示其結果(productions)。這種風格使得您可以將動作代碼直接插入到一個結果中,以處理當一個特定的語法規則得到滿足時將發生的事件。與 PLY 或 Spark 相反,DParser 本身是用 C 編寫的,因而可能會比純粹的 Python 解析器快得多。用于 Python 的 DParser 是底層的 C 程序庫之外的一個非常精簡的包裝器(wrapper) —— 對 Python 的回調需要一些額外的時間,但是基本的解析是以 C 語言的速度來進行的。不過,就本文而言,我沒有嘗試進行任何具體的基準測試。所以,相對于其他解析器來說,DParser 到底有多快或多慢不是我所能直接評論的。
      
      就我自己而言,我仍是非常喜歡 SimpleParse 的方法。SimpleParse 是快速的 mx.TextTools 程序庫(也是用 C 所編寫的)的一個包裝器,可以將 EBNF 語法語言從 Python 代碼中完全分離出來。一般來說,使用 SimpleParse 就意味著在一個函數調用中生成一個解析樹,然后在分開的代碼中遍歷這個樹。對于特別大的被解析的文檔來說,這種兩步方法可能是低效的,但是我發現這樣更容易理解編寫的代碼。
      
      盡管如此,還是有很多讀者推薦說用于 Python DParaser 值得關注,雖然我更喜歡單獨的 EBNF 定義。順便提一句,如您將在示例中所看到的,DParser 不使用任何單獨的標記傳遞,而只是直接解析。您可以通過定義保留的 d_whitespace() 函數來控制空格的識別(它分離解析符號);這樣就使得您可以隨意使用標記。
      
      找到最長的結果
      作為用于 Python 的 DParser 程序的第一個示例,我創建了一個查找幾個模式的語法,這些模式依次為另一個的子結果。這個語法處理的問題類似于很多解析器遇到的“dangling else”問題。具體說,也就是您如何才能知道什么時候停止查找更長的結果?(例如,“if”后是否跟有“else”?)我的語法會去分析的短語可能按次序包括有以“a”、“b”和“c” 結尾的單詞。所有沒有被包括進來的單詞只是短語的“head”或“tail”的部分。這需要一些例子來展示。首先,程序本身:
      
      清單 1. 解析器 abc.py
      
      #!/usr/bin/env python2.3
      "Identify sequence of a-, b-, c- words"
      #
      #-- The grammar
      def d_phrase(t, s):
        'phrase : words ( ABC | AB | A ) words'
        print "Head:", ''.join(s[0])
        print t[1][0]+":", ''.join(s[1])
        print "Tail:", ''.join(s[2])
      def d_words(t):
        'words : word*'
      def d_word(t):
        'word : "[a-z]+" '
      def d_A(t):
        '''A : "a[a-z]*" '''
        return 'A'
      def d_AB(t):
        '''AB : A "b[a-z]*" '''
        return 'AB'
      def d_ABC(t):
        '''ABC : AB "c[a-z]*" '''
        return 'ABC'
      #
      #-- Parse STDIN
      from dparser import Parser
      from sys import argv, stdin
      phrase, arg = stdin.read(), argv[-1]
      Parser().parse(phrase,
              print_debug_info=(arg=='--debug'))
      
      讓我們給出一些短語來運行這個解析器,如下:
      
      清單 2. 簡單地解析短語
      
      $ echo -n "alpha" | ./abc.py
      Head:
      A: alpha
      Tail:
      echo -n "xavier alpha beta charlie will" | ./abc.py
      Head: xavier
      ABC: alpha beta charlie
      Tail: will
      $ echo -n "mable delta xavier bruce" | ./abc.py
      Traceback (most recent call last): [...]
      dparser.SyntaxError:
      syntax error, line:1
      mable delta xavier bruce[syntax error]
      
      顯然,到目前為止,一切都沒問題。我的語法當其條件允許時找到了一個 ABC,但是當只能找到 A 或者 AB 時,也能滿足于此。
      
      不過說實話,當遇到含糊的短語時,我的語法會有很多問題。在大部分情況下,當 DParser 不能確定如何解析一個短語時,它會陷入一個無限循環(可能是最壞的結果;至少回溯或者報告的錯誤可以告訴您哪里出現了問題)。有時(至少在我的 Mac OSX 機器上),它會轉而生成一個“Bus error”。那些情形我哪個都不喜歡。
      
      處理含糊的短語
      由于所有的最終結果都有相同的優先級,所以解析器不能確定如何解析類似如下的內容:
      
      清單 3. 嘗試解析一個含糊的短語
      
      $ echo -n "alex bruce alice benny carl" | ./abc.py
      
      AB 在前然后是單詞?單詞在前然后是 ABC?對于那個問題來說,它是全部都是單詞嗎(包括五個單詞結果),它是不是應該引發一個 dparser.SyntaxError?我最后會得到一個“Bus error” 或停止了的任務,而不是一個解析。在先前的例子中,含糊的短語碰巧被解析出來的原因在于每個結果的急切性(eagerness);一旦找到一個 ABC,則先導和結尾單詞就都各就其位。
      
      實際上,在先前的語法可以生效的情況下,要確切地理解為什么能夠生效很令人迷惑 —— 在某種程度上,比理解為什么它有時不能生效更令人迷惑。
      
      讓我們假定我們希望解析一個短語,并當存在 ABC 結果時找它,即便在從左到右的遍歷過程中,有一些其他的結果(也就是 AB)得到了滿足。我可以通過提高 ABC 最終結果的優先級來完成:
      
      清單 4. abc2.py 中修訂的 d_ABC() 結果函數
      
      def d_ABC(t):
        'ABC : AB "c[a-z]*" $term 1'
        return 'ABC'
      
      如果沒有指定優先級,則結果的優先級是 0。否則,任何正整數或負整數都可以用來對結果排序,F在我們可以運行:
      
      清單 5. 成功地找到后面的 ABC
      
      $ echo -n "alex bruce alice benny carl" | ./abc2.py
      Head: alex bruce
      ABC: alice benny carl
      Tail:
      
      注意,在解析器尋找末尾的單詞之前,會嘗試(ABC|AB|A)系列中的全部可選項。所以這樣不需要任何優先級規范就可以成功。
      
      清單 6. A 與 AB 之間不存在含糊短語問題
      
      $ echo -n "alex alice benny" | ./abc.py  Head: alex
      AB: alice benny
      Tail:
      
      在處理含糊短語時 DParser 的行為中,我發現了一些難以解釋的異,F象。例如,添加一個絕對不是 A 的末尾單詞,解析器可以工作 —— 但 只能 在有調試信息的條件下運行!
      
      清單 7. 處理含糊短語時的不穩定行為
      
      $ echo -n "alex bruce alice benny carl dave" | ./abc.py
      [...process freezes...]
      $ echo -n "alex bruce alice benny carl dave" | ./abc.py --debug
      [...debugging trace of speculative and final productions...]
      Head: alex bruce
      ABC: alice benny carl
      Tail: dave
      
      abc2.py 中的優先級規范會完成任意一種情況下的解析。
      
      含糊短語的解析相當難以捉摸,難以確切理解;旧,結果的生成是按遍歷的順序從左到右執行的,每一個結果都嘗試去從左到右獲取盡可能多的單詞。只有當向前查找過程中發生明顯錯誤時,才會進行回溯?傊,這只是大概。
      
      調試簡介
      DParser 可以顯示調試信息的選項,這是我所喜歡的它的一個方面。觀察這些信息并不是直觀地創建正確語法所必需的,但是至少可以通過它洞察當處理特定的短語時解析器所采取的動作。例如:
      
      清單 8. 展示對不確定結果的追蹤
      
      #------- Showing a trace of speculative productions
      $ echo -n "alex alice benny carl dave" | ./abc2.py --debug
              d_words ???:
                d_A ???:   alex
              d_word ???:   alex
              d_words ???:
             d_phrase ???:   alex
              d_words ???:   alex
                d_A ???:   alice
              d_word ???:   alice
              d_words ???:
              d_words ???:   alice
             d_phrase ???:   alex alice
             d_phrase ???:   alex alice
              d_words ???:   alex alice
              d_word ???:   benny
               d_AB ???:   alice benny
              d_words ???:   benny
              d_words ???:   alice benny
              d_words ???:
             d_phrase ???:   al

    延伸閱讀

    文章來源于領測軟件測試網 http://www.kjueaiud.com/


    關于領測軟件測試網 | 領測軟件測試網合作伙伴 | 廣告服務 | 投稿指南 | 聯系我們 | 網站地圖 | 友情鏈接
    版權所有(C) 2003-2010 TestAge(領測軟件測試網)|領測國際科技(北京)有限公司|軟件測試工程師培訓網 All Rights Reserved
    北京市海淀區中關村南大街9號北京理工科技大廈1402室 京ICP備10010545號-5
    技術支持和業務聯系:info@testage.com.cn 電話:010-51297073

    軟件測試 | 領測國際ISTQBISTQB官網TMMiTMMi認證國際軟件測試工程師認證領測軟件測試網

    老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月

  • <ruby id="5koa6"></ruby>
    <ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

    <progress id="5koa6"></progress>

  • <strong id="5koa6"></strong>