Archive

Posts Tagged ‘code’

UTF-8转换成GB2312

November 6th, 2006

  主题:将UTF-8编码的字符串转化成GB2312的编码,没有对应编码的字符串转化为&#DEC; 的格式。如 회=>회

语言:PHP,Javascript

内容:浏览器用Javascript中encodeURI函数将字符串(包含非GB2312中字符)编码,GET请求到服务器,页面编码均为GB2312,服务器PHP脚本将请求数据转换成GB2312表示。

基础:

1. 单独使用iconv函数只能转换GB2312字符,外文字符无法转换
2. 没有现成的函数可以用
3. bindec()函数:将二进制格式的”01″字符串转换为十进制数
4. decbin()函数:将十进制数转换为二进制字符串,如decbin(224)=”11100000″

思路:因为UTF-8分别有1,2,3字节编码,中日韩文都是3字节编码,处理时根据字符编码中首字节大小区分字节数量。

1.如首字节小于128,为ASCII码
2.128~192,非UTF-8编码,且处理为&#ord();
3. 192~224, 双字节UTF-8编码
4. 224~240,三字节编码
5. 240~248,四字节编码
6. 。。。
7. 对于三字节编码的尝试用iconv转换成GB2312
8. 非GB2312的多字节字符,尝试把UTF-8转换成Unicode,再取到Unicode十进制值
9. 可以考虑使用位运算,也可以用bindec()函数

程序:

function GetGB2312String($name)
{
$tostr = “”;
for($i=0;$i
{
$curbin = ord(substr($name,$i,1));
if($curbin < 0×80)
{
$tostr .= substr($name,$i,1);
}elseif($curbin < bindec(”11000000″)){
$str = substr($name,$i,1);
$tostr .= “&#”.ord($str).”;”;
}elseif($curbin < bindec(”11100000″)){
$str = substr($name,$i,2);
$tostr .= “&#”.GetUnicodeChar($str).”;”;
$i += 1;
}elseif($curbin < bindec(”11110000″)){
$str = substr($name,$i,3);
$gstr= iconv(”UTF-8″,”GB2312″,$str);
if(!$gstr)
{
$tostr .= “&#”.GetUnicodeChar($str).”;”;
}else{
$tostr .= $gstr;
}

$i += 2;
}elseif($curbin < bindec(”11111000″)){
$str = substr($name,$i,4);
$tostr .= “&#”.GetUnicodeChar($str).”;”;

$i += 3;
}elseif($curbin < bindec(”11111100″)){
$str = substr($name,$i,5);
$tostr .= “&#”.GetUnicodeChar($str).”;”;

$i += 4;
}else{
$str = substr($name,$i,6);
$tostr .= “&#”.GetUnicodeChar($str).”;”;

$i += 5;
}
}

return $tostr;
}

function GetUnicodeChar($str)
{
$temp = “”;
for($i=0;$i
{
$x = decbin(ord(substr($str,$i,1)));
if($i == 0)
{
$s = strlen($str)+1;
$temp .= substr($x,$s,8-$s);
}else{
$temp .= substr($x,2,6);
}
}

return bindec($temp);
}

附:

U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

Docu~ ,

ASP在线编辑XML等UTF-8格式的文件

June 14th, 2006

ASP在线编辑XML等UTF-8格式的文件

注意:这里说的ASP可不是ASP.net。
ASP由于是一种古老的语言,它的一些功能对UTF-8支持非常差。
比如,你想生成一个UTF-8格式的文件,使用常用的 Scripting.FileSystemObject 对象就不行。

Scripting.FileSystemObject 对象创建文件的函数,是下面方式:
FileSystemObject.CreateTextFile(filename[,overwrite[,unicode]])

其中的 unicode 属性是这样描述的:

可选项。Boolean 值指明是否以 Unicode 或 ASCII 文件格式创建文件。如果以 Unicode 文件格式创建文件,则该值为 True;如果以 ASCII 文件格式创建文件,则该值为 False。如果省略此部分,则假定创建 ASCII 文件。

我们是无法用这个函数来创建UTF-8格式文件的。
这时候,我们可以使用 ADODB.Stream 对象,使用方法见下面:
[code]
Set objStream = Server.CreateObject(”ADODB.Stream”)
With objStream
.Open
.Charset = “utf-8″
.Position = objStream.Size
.WriteText=str
.SaveToFile server.mappath(”/sitemap.xml”),2
.Close
End With
Set objStream = Nothing[/code]附:
ASCII 、Unicode 、 UTF-8 介绍:
ASCII 是一种字符集,包括大小写的英文字母、数字、控制字符等,它用一个字节表示,范围是 0-127。

由于 ASCII 表示的字符非常有限,各个国家或者地区在此基础上提出了自己的字符集,比如在中国应用非常广泛的 GB2312,它为汉字提供了编码,用两个字节表示。

这些字符集之间互不兼容,相同的数字可能表示不同的字符,为信息交流带来了麻烦。
Unicode 是一种字符集,它将世界上的所有字符映射成一个唯一的数字(code point),比如字母 a 对应的数字 0×0041。目前 Unicode 还处于发展中,它所包容的字符越来越多。

在将 Unicode 表示的字符进行存储时,还需要一定的编码方式,比如 UCS-2,它用两个字节来表示 Unicode 编码的字符。而 UTF-8 是 Unicode 字符集的另外一种编码方式,它是变长度的,最多 6 个字节,小于 127 的字符用一个字节表示,与 ASCII 字符集的结果一样,因而具有非常好的兼容性,ASCII 编码下的英语文本不需要修改就可以当作 UTF-8 编码进行处理,应用非常广泛。

[code]
&lt;%@LANGUAGE=”VBSCRIPT” CODEPAGE=”65001″%&gt;
&lt;%Session.CodePage=65001%&gt;
&lt;%
‘身份验证
U8P=”mimamimamima”
If Session(”dengluXlei”)&lt;&gt;U8P Then
If Request.Form(”Ps”)&lt;&gt;”" Then
If Request.Form(”Ps”)=U8P Then
Session(”dengluXlei”)=U8P
Response.Redirect “u8.asp”
Else
response.write”密码错误”
End If
Else
SI=”U8?”
SI=SI&amp;”
<form action=”"&amp;URL&amp;”" method=”post”>”
SI=SI&amp;”login:
<input name=”Ps” size=”15″ type=”password” />”
SI=SI&amp;”
<input value=”PW” type=”submit” /></form>”
Response.Write SI
End If
Response.End
End If
%&gt;
<meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″ />
<meta http-equiv=”Content-Language” content=”UTF-8″ />

<form name=”form1″ method=”post”> <input name=”submit” value=”Go” type=”submit” /> <input name=”Button” onclick=”nr.select()” value=”all” class=”FormBtn” type=”button” /> <input name=”lj” size=”60″ type=”text” />&lt;%
dim lj,nr
lj=request.form(”lj”)
nr=request.form(”nr”)
‘定义表单对象
if nr&lt;&gt;”" and lj&lt;&gt;”" then
call SaveToFile(nr,lj)
‘非空则保存 否则读取
else
LoadFile(lj)
end if

‘读取
Function LoadFile(ByVal File)
Dim objStream
On Error Resume Next
Set objStream = Server.CreateObject(”ADODB.Stream”)
If Err.Number=-2147221005 Then
Response.Write “主机竟不支持ADODB.Stream”
Err.Clear
Response.End
End If
With objStream
.Type = 2
.Mode = 3
.Open
.LoadFromFile Server.MapPath(File)
If Err.Number&lt;&gt;0 Then
Response.Write “打不开 <u>”&amp;File&amp;”</u> 确认文件是否存在”
Err.Clear
‘Response.End
End If
.Charset = “utf-8″
.Position = 2
LoadFile = .ReadText
Response.Write lj&amp;”
<textarea name=”nr” style=”width: 100%; height: 480px” wrap=”off”>”&amp;LoadFile&amp;”&lt;/textarea&gt;”&lt;br /&gt;         .Close&lt;br /&gt;     End With&lt;br /&gt;     Set objStream = Nothing&lt;br /&gt; End Function&lt;/p&gt; &lt;p&gt;’存储&lt;br /&gt; Sub SaveToFile(ByVal strBody,ByVal File)&lt;br /&gt;     Dim objStream&lt;br /&gt;     On Error Resume Next&lt;br /&gt;     Set objStream = Server.CreateObject(”ADODB.Stream”)&lt;br /&gt;     If Err.Number=-2147221005 Then&lt;br /&gt;         Response.Write “乖乖竟不支持ADODB.Stream”&lt;br /&gt;         Err.Clear&lt;br /&gt;         Response.End&lt;br /&gt;     End If&lt;br /&gt;     With objStream&lt;br /&gt;         .Type = 2&lt;br /&gt;         .Open&lt;br /&gt;         .Charset = “utf-8″&lt;br /&gt;         .Position = objStream.Size&lt;br /&gt;         .WriteText = strBody&lt;br /&gt;         .SaveToFile Server.MapPath(File),2&lt;br /&gt;         .Close&lt;br /&gt;     End With&lt;br /&gt;     Set objStream = Nothing&lt;br /&gt; Response.Write lj&amp;”保存完毕”&lt;br /&gt; End Sub&lt;/p&gt; &lt;p&gt;%&gt;&lt;br /&gt; &lt;/p&gt; &lt;/form&gt; &lt;p&gt;[/code]&lt;/p&gt; </textarea>

</form>

Docu~ , ,