数学建模社区-数学中国
标题:
UNICODE编程介绍
[打印本页]
作者:
xShandow
时间:
2004-6-4 09:06
标题:
UNICODE编程介绍
<
><FONT face=宋体>这是一个许多人(包括我自己)曾经或至今仍疑惑的问题(这里我们只讨论UTF-16,即双字节版本)。
1 m! g* L0 d) P+ b* f
4 x' ?( o& i9 }4 O5 p/ f# u8 a
1.关于UNICODE
& y- A8 j5 G+ d4 a- S! x
首先,UNICODE主要使用的字符类型是WCHAR,定义是unsigned short。从定义我们可以看出这是一个双字节的类型,就是每一个字符占2个字节。这样的话,可以表示的字符类型就可以多达6万多。所有之前的ASCII码分布在0x0000-0x00ff之间,而汉字(包括big5)分布在0x4e00到0x9fff之间。整个unicode包含了几乎世界上所有的文字。关于UNICODE的细节,可以参看以下网页
- s( w6 h* f7 W" T
<a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" >http://www.unicode.org/unicode/standard/translations/s-chinese.html</A><a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" ><FONT color=#000020></FONT></A>
3 S3 j/ L. x3 L# W
" o+ d, G# _* A3 O X9 W1 K
2.为什么要使用UNICODE
" W" r9 X( A2 Q* s7 x9 [
1) COM:在COM规范中,明确指定了必须使用UNICODE类型,这正是微软充分考虑了跨平台的结果。这也是为什么经常在COM中可以看到BSTR(WCHAR*)类型
( j, [+ @4 ]5 ^9 k
& |5 h6 M \3 ^: o
2)WIN2000和WINNT:在这两个平台中,默认的字符处理方式是UNICODE。即使你写了一个非UNICODE(multibyte)的程序,系统在执行的时候仍然会对你的字符进行一次转换,这样无疑浪费了CPU时间,使用UNICODE可以有效的提高程序的运行效率(仅使用于这两个平台)。当然将来的XP也会如此。
! A& n$ u+ t$ p0 H4 ^& k# L
1 S9 Z V5 g" K! R1 C m
3)通用性:使用UNICODE可以使我们不在为汉字和英文字符的判断而烦恼(都是2个字节)。
+ Z7 j8 ` m5 J9 [* _% |
# H; `: @5 d" `: u$ a9 P
3.如何使用UNICODE
d, C, n, O. u3 g9 B
1)首先推荐的类型是TCHAR(通用字符类型)。当你定义了_UNICODE宏的时候,TCHAR就是WCHAR,当你没有定义这个宏的时候,TCHAR就是char,很不可思议吧,我们可以来看一下TCHAR的定义:
5 g. |0 Q3 A0 _" e' ?
4 l& A9 p2 P- s- P z
#ifdef UNICODE // r_winnt
0 v: N5 f* d1 Y" e# t
typedef WCHAR TCHAR, *PTCHAR;
! G9 x9 y6 D6 Z
#else /* UNICODE */ // r_winnt
( l/ V) q! k. J. j% e, H
typedef char TCHAR, *PTCHAR;
* O9 s0 X7 l* f( {
#endif /* !_TCHAR_DEFINED */
& V" }- T% f5 A3 y1 h+ X
8 i; H# ?2 ]) A" A2 e
上面的代码来自WINNT.H,我剔除了一些无关的部分。
, l$ k" \1 E. r& G
现在一切都显而易见了。
0 X' \! M9 }6 p6 r* X
通过TCHAR,我们只需要这样一段代码:
' E. L% d5 N8 X& g( |
TCHAR tStr[] = _T("t code");
; F( e K" U. F1 E5 G
MessageBox(tStr);
2 X4 E6 F( Q! x4 M. \
就可以支持UNICODE和MULTIBYTE两种版本。_T宏的作用就是转换成TCHAR。
3 R3 |) ~4 S! S; O o
6 F6 w" D: L: ^
2)关于其他的处理
7 l, O5 r; \: a, D2 |
首先是常用的CString,它本身就支持UNICODE。下面的例子说明了用法:
1 B. R; K# ?9 _: \9 \6 r3 f
0 r, I7 F" H( m
CString *pFileName = new CString("c:\\tmpfile.txt");
' i5 f$ {) B9 w4 f# _4 K
. f- ?6 n) s" f, S- H
#ifdef _UNICODE
6 H5 W, C% x, X. r6 j8 p1 _- N) M
& f6 t8 S3 f1 I# l1 w8 s
m_hFile = CreateFile(pFileName->AllocSysString(),
% Q9 U- j( K$ K6 X, y, G9 Y" U
GENERIC_READ | GENERIC_WRITE,
' x0 s8 `1 I2 Q1 f2 A
FILE_SHARE_READ,
8 ] B" g+ L E4 d% Z1 i0 R' s
NULL,
/ D8 A) l: m; R% ]6 ~
OPEN_EXISTING,
6 o# [; F/ S+ ]4 {
FILE_ATTRIBUTE_NORMAL,
2 P: ?4 w# D: b' Z* @" T
NULL);
' e# }& F; c8 ]/ a7 V
#else
8 q }* u2 R# S& k9 k
m_hFile = CreateFile(pFileName->GetBuffer(pFileName->GetLength()),
( r5 ~% o9 g9 x5 w3 ~! @
GENERIC_READ | GENERIC_WRITE,
, p' ~2 F) x- k/ Q. l4 }! u
FILE_SHARE_READ,
# t; i. v1 n" J& a) s0 H
NULL,
( D0 p2 s+ ^; X+ P/ X: V
OPEN_EXISTING,
; t, [0 i# W& Q( ]# L% X1 y
FILE_ATTRIBUTE_NORMAL,
" B1 q' U+ `% C- ^# O
NULL);
- s) q/ l: m! U% q- x4 [9 y
#endif
$ P/ D* C1 v7 j! n( v' y7 w
/ i. K6 ]" a( e4 d
3) 当我们在UNICODE方式中需要为一个字串常量赋值时可以使用L宏,如:
3 V' `; n" c, N) L- L
BSTR wcsStr = L"unicode";
4 ?" S# W/ p3 B0 v% ^) h
这样的附值很简便,但是,经过L宏处理后的字串一定是UNICODE,如果你把它赋给一个MULTIBYTE的字串,字符将可能会被截断。
i- B3 [2 u( N2 k) h
+ E6 k8 b7 N# ]
另外,VC还提供了一些函数如WideCharToMultiByte和MultiByteToWideChar还有另外的一些宏来支持转换。大家可以看MSDN。
" y4 \: s) W, |
9 ?, a1 X/ o! M T- o7 G
8 Y# G4 C3 X' V; b+ {+ t% [3 L
3.编译器的设置:
. [: h6 T5 ~( b. {" s( E& V
首先我们需要在project->settings->C/C++的属性页中的Preprocessor中写入_UNICODE,然后在link属性页中Category中选择output,在Entry-Point symbol 中添加wWinMainCRTStartup,这样,我们的UNICODE工程便大功告成。</FONT></P>
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5