在线时间 0 小时 最后登录 2005-9-21 注册时间 2004-4-27 听众数 1 收听数 0 能力 0 分 体力 1027 点 威望 0 点 阅读权限 40 积分 385 相册 0 日志 0 记录 0 帖子 153 主题 43 精华 0 分享 0 好友 0
升级 28.33%
该用户从未签到
国际赛参赛者
< ><FONT face=宋体>这是一个许多人(包括我自己)曾经或至今仍疑惑的问题(这里我们只讨论UTF-16,即双字节版本)。" Z8 V9 D s; S' p: N0 a; X
+ E& ]' k' Z. s" ] t/ A* ?+ O2 i8 t
1.关于UNICODE
! W6 J2 f' q- b$ F. V 首先,UNICODE主要使用的字符类型是WCHAR,定义是unsigned short。从定义我们可以看出这是一个双字节的类型,就是每一个字符占2个字节。这样的话,可以表示的字符类型就可以多达6万多。所有之前的ASCII码分布在0x0000-0x00ff之间,而汉字(包括big5)分布在0x4e00到0x9fff之间。整个unicode包含了几乎世界上所有的文字。关于UNICODE的细节,可以参看以下网页8 u B- X- V% F
<a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" >http://www.unicode.org/unicode/standard/translations/s-chinese.html</A><a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" ><FONT color=#000020></FONT></A>
2 x8 b: t& |. v( P1 t2 J& u. j# i
' M. n; i; f1 ]7 K 2.为什么要使用UNICODE
2 b5 b4 X# u" v 1) COM:在COM规范中,明确指定了必须使用UNICODE类型,这正是微软充分考虑了跨平台的结果。这也是为什么经常在COM中可以看到BSTR(WCHAR*)类型) Y( C9 ]2 a |0 N
! H% R: h% M* }5 A1 M; J8 v
2)WIN2000和WINNT:在这两个平台中,默认的字符处理方式是UNICODE。即使你写了一个非UNICODE(multibyte)的程序,系统在执行的时候仍然会对你的字符进行一次转换,这样无疑浪费了CPU时间,使用UNICODE可以有效的提高程序的运行效率(仅使用于这两个平台)。当然将来的XP也会如此。4 ~* |1 I5 O4 }( ` f: }
F/ J6 y/ J# h, u: H2 E0 _9 `/ P- h- k$ k
3)通用性:使用UNICODE可以使我们不在为汉字和英文字符的判断而烦恼(都是2个字节)。- ~* C8 s: Q! W A
* f. R* { _/ |$ { 3.如何使用UNICODE
, X5 i+ z) Z% O) l" F: Q 1)首先推荐的类型是TCHAR(通用字符类型)。当你定义了_UNICODE宏的时候,TCHAR就是WCHAR,当你没有定义这个宏的时候,TCHAR就是char,很不可思议吧,我们可以来看一下TCHAR的定义:
9 z0 e3 b, b$ R* C% F* y+ I 6 ]* R( J1 l2 u0 s8 n4 Y
#ifdef UNICODE // r_winnt
6 n/ V4 k6 F- K _ typedef WCHAR TCHAR, *PTCHAR;( f/ u4 ^# s6 T$ K
#else /* UNICODE */ // r_winnt7 I! k8 K; t: M% d0 ?
typedef char TCHAR, *PTCHAR;4 S( y; ]2 C5 \
#endif /* !_TCHAR_DEFINED */
% ~8 t$ ]9 L! O+ X( S) @# _ S ; W) q. d7 J) b ^0 _
上面的代码来自WINNT.H,我剔除了一些无关的部分。& A7 L) _" M! E6 H1 U
现在一切都显而易见了。
" \+ d5 _& e! Y/ Y3 Z 通过TCHAR,我们只需要这样一段代码:
* Y' P2 y* s" q* |+ c! P TCHAR tStr[] = _T("t code");5 t# d, X: s& x4 O+ j" m
MessageBox(tStr);1 v0 A. K: u! x& H
就可以支持UNICODE和MULTIBYTE两种版本。_T宏的作用就是转换成TCHAR。
/ p( F5 z+ v" m( O' o: o7 ~- R% {; Y* T8 [6 a ) L4 q) W( w# f H& f- Y: Y7 l% z& O
2)关于其他的处理
) i3 H& H4 l, E L7 J 首先是常用的CString,它本身就支持UNICODE。下面的例子说明了用法: U0 U% l8 U# j: m3 U& G8 c3 d
3 b! ~8 x; e" {$ u, H
CString *pFileName = new CString("c:\\tmpfile.txt");
+ A" { u6 m. A3 D+ Y: k5 N 2 T% H' N( }9 ?! i& w" r
#ifdef _UNICODE
2 @4 I# |6 I6 h. X' k7 \! r ; Y( {* n! O3 q4 [, v+ Z1 T
m_hFile = CreateFile(pFileName->AllocSysString(), 4 m) x' f) T2 _) K$ w4 |
GENERIC_READ | GENERIC_WRITE, 0 r4 m* e. _* i0 [
FILE_SHARE_READ,
, |% z: k9 j' Z, h8 e NULL,
. t2 N" [% i4 M8 G1 r6 a U$ v OPEN_EXISTING,& b0 y2 V8 m: G5 I' m. J4 z8 E$ A
FILE_ATTRIBUTE_NORMAL,
1 U5 @) S- m& B/ B+ b+ K NULL);
- }. h$ r H, t/ v$ I. }$ _ #else
+ ~# O- j" u5 u C m_hFile = CreateFile(pFileName->GetBuffer(pFileName->GetLength()), 7 \. a- K# E# z1 u6 Q, H! K
GENERIC_READ | GENERIC_WRITE, 2 B, O: ?. j- g8 P& K- p2 V
FILE_SHARE_READ,
2 A/ b7 p! N9 j/ Y; ? NULL,5 z/ h& ]+ V$ {! N6 |' Y$ N7 r4 B
OPEN_EXISTING,- w( P$ V' c0 {* ?
FILE_ATTRIBUTE_NORMAL,
2 O& N/ A. N* W& Z NULL);
2 c( y- B- c; Q$ F1 q #endif8 `! |! v( F8 `$ Q" [; q8 J9 K) {
! ~' Y" S+ @& |! {- `8 {# r! m: F 3) 当我们在UNICODE方式中需要为一个字串常量赋值时可以使用L宏,如:
" D6 D/ V2 s- f0 c# T BSTR wcsStr = L"unicode";1 E) x, P0 e) u, M, b4 r
这样的附值很简便,但是,经过L宏处理后的字串一定是UNICODE,如果你把它赋给一个MULTIBYTE的字串,字符将可能会被截断。/ f; N8 x8 N, B, D$ m' t9 c
7 Y- l/ Y. C$ R; B. F 另外,VC还提供了一些函数如WideCharToMultiByte和MultiByteToWideChar还有另外的一些宏来支持转换。大家可以看MSDN。 8 e' X9 N$ i; x/ k0 N
~" g* m( {# C2 t2 v) d/ t
* Z5 F1 c' {+ w0 a K 3.编译器的设置:
1 a8 b/ B+ l' i3 T 首先我们需要在project->settings->C/C++的属性页中的Preprocessor中写入_UNICODE,然后在link属性页中Category中选择output,在Entry-Point symbol 中添加wWinMainCRTStartup,这样,我们的UNICODE工程便大功告成。</FONT></P>
zan