• <ruby id="5koa6"></ruby>
    <ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

    <progress id="5koa6"></progress>

  • <strong id="5koa6"></strong>
  • GD輸出漢字的函數的分析

    發表于:2007-07-14來源:作者:點擊數: 標簽:
    很早以前找到一個把GB碼轉化為UTF-8的函數,配合一個GB到UNICODE的對照表(gb2312.txt),用于在GD中輸出漢字。后來發現在欲輸出的內容中含有西文字符時,會出現混亂。后來找到了修改后的代碼,解決了問題?,F將兩個函數做一對比分析如下。 首先,這是一個UN
        很早以前找到一個把GB碼轉化為UTF-8的函數,配合一個GB到UNICODE的對照表(gb2312.txt),用于在GD中輸出漢字。后來發現在欲輸出的內容中含有西文字符時,會出現混亂。后來找到了修改后的代碼,解決了問題?,F將兩個函數做一對比分析如下。

    首先,這是一個UNICODE到UTF-8編碼轉換的函數,這一部分修改前后沒有變化:
    function u2utf8($c)
    {
    for($i=0;$i<count($c);$i++)
    $str="";
    if ($c < 0x80) {
    $str.=$c;
    }
    else if ($c < 0x800) {
    $str.=(0xC0 | $c>>6);
    $str.=(0x80 | $c & 0x3F);
    }
    else if ($c < 0x10000) {
    $str.=(0xE0 | $c>>12);
    $str.=(0x80 | $c>>6 & 0x3F);
    $str.=(0x80 | $c & 0x3F);
    }
    else if ($c < 0x200000) {
    $str.=(0xF0 | $c>>18);
    $str.=(0x80 | $c>>12 & 0x3F);
    $str.=(0x80 | $c>>6 & 0x3F);
    $str.=(0x80 | $c & 0x3F);
    }
    return $str;
    }

    這里完全是按照UTF-8編碼的規則,通過判斷字符屬于不同的UNICODE編碼段范圍,進行不同的移位和位與操作,以轉化為UTF-8編碼。關于該規則可參考http://www.utf8.org/上的說明。

    這是修改前的GB轉化為UTF-8編碼的函數,其中調用了上面的u2utf8函數。
    function gb2utf8($gb)     /* Program writen by sadly www.phpx.com  */
    {
    if(!trim($gb))
    return $gb;
    $filename="gb2312.txt";
    $tmp=file($filename);
    $codetable=array();
    while(list($key,$value)=each($tmp))
    $codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
    $utf8="";
    while($gb)
    {
    if (ord(substr($gb,0,1))>127)
    {
    $this=substr($gb,0,2);
    $gb=substr($gb,2,strlen($gb));
    $utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
    }
    else
    {
    $gb=substr($gb,1,strlen($gb));
    $utf8.=u2utf8(substr($gb,0,1));
    }
    }

    $ret="";
    for($i=0;$i<strlen($utf8);$i+=3)
    $ret.=chr(substr($utf8,$i,3));

    return $ret;
    }
    函數中while循環部分,把漢字逐個按照“對照表”轉化為UNICODE,再通過u2utf8函數轉化為UTF-8。但從中可以看出,while循環結束后,又用一個for循環,把每三個字節合成了一個UTF-8字符(見http://www.utf8.org/上的規則說明,每個漢字的UTF-8編碼為三字節),沒有考慮到其中的西文字符(西文字符的UTF-8編碼為一字節)。所以,如果欲輸出的內容中不論是開始時出現西文字符,或是漢字當中穿插西文字符,轉化為UTF-8后,都會被按照“每三個字節截取”的方式截開,導致亂碼。


    以下是修改后的函數:
    function gb2utf8($gb)    /* Program writen by sadly   modified by agun */
    {
    if(!trim($gb))
    return $gb;
    $filename="gb2312.txt";
    $tmp=file($filename);
    $codetable=array();
    while(list($key,$value)=each($tmp))
    $codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

    $ret="";
    $utf8="";
    while($gb)
    {
    if (ord(substr($gb,0,1))>127)
    {
    $this=substr($gb,0,2);
    $gb=substr($gb,2,strlen($gb));
    $utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
    for($i=0;$i<strlen($utf8);$i+=3)
    $ret.=chr(substr($utf8,$i,3));
    }
    else
    {
    $ret.=substr($gb,0,1);
    $gb=substr($gb,1,strlen($gb));
    }
    }
    return $ret;
    }

    修改后的函數將 GB轉化為UNICODE、UNICODE轉化為UTF-8、幾個字節合成一個UTF-8字符,這三個步驟在一個循環里完成,尤其是幾個字節合成一個UTF-8字符這一步驟,放在判斷了字符屬于西文還是屬于漢字的條件分支里,據此決定截取一個字節還是三個字節。于是結果正確了!

    原文轉自:http://www.kjueaiud.com

    老湿亚洲永久精品ww47香蕉图片_日韩欧美中文字幕北美法律_国产AV永久无码天堂影院_久久婷婷综合色丁香五月

  • <ruby id="5koa6"></ruby>
    <ruby id="5koa6"><option id="5koa6"><thead id="5koa6"></thead></option></ruby>

    <progress id="5koa6"></progress>

  • <strong id="5koa6"></strong>