数学建模社区-数学中国
标题:
UNICODE编程介绍
[打印本页]
作者:
xShandow
时间:
2004-6-4 09:06
标题:
UNICODE编程介绍
<
><FONT face=宋体>这是一个许多人(包括我自己)曾经或至今仍疑惑的问题(这里我们只讨论UTF-16,即双字节版本)。
; O; E' T- g( z* b; U
; g5 S( [/ x' ~. w6 B
1.关于UNICODE
1 N& y! i( a5 n( j* p, a. x7 }/ _
首先,UNICODE主要使用的字符类型是WCHAR,定义是unsigned short。从定义我们可以看出这是一个双字节的类型,就是每一个字符占2个字节。这样的话,可以表示的字符类型就可以多达6万多。所有之前的ASCII码分布在0x0000-0x00ff之间,而汉字(包括big5)分布在0x4e00到0x9fff之间。整个unicode包含了几乎世界上所有的文字。关于UNICODE的细节,可以参看以下网页
. D0 T& w% W/ n* N+ j! D; X
<a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" >http://www.unicode.org/unicode/standard/translations/s-chinese.html</A><a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" ><FONT color=#000020></FONT></A>
: {0 `0 `( e \
6 J( W' R. h8 K& ]9 S1 f
2.为什么要使用UNICODE
8 C3 H* X, m) @4 s& H
1) COM:在COM规范中,明确指定了必须使用UNICODE类型,这正是微软充分考虑了跨平台的结果。这也是为什么经常在COM中可以看到BSTR(WCHAR*)类型
0 |- \5 K( E6 n6 X1 }$ T
3 B, L9 O" O. d/ h2 ]2 f
2)WIN2000和WINNT:在这两个平台中,默认的字符处理方式是UNICODE。即使你写了一个非UNICODE(multibyte)的程序,系统在执行的时候仍然会对你的字符进行一次转换,这样无疑浪费了CPU时间,使用UNICODE可以有效的提高程序的运行效率(仅使用于这两个平台)。当然将来的XP也会如此。
4 B% I$ ?, e* ~+ Z | H9 k1 R7 |
# ~' |0 z: n" T* s, @8 S. i
3)通用性:使用UNICODE可以使我们不在为汉字和英文字符的判断而烦恼(都是2个字节)。
" S6 K! P. w# ?* D
# E2 H' B) ]) W
3.如何使用UNICODE
% z* X1 t" \( a3 S
1)首先推荐的类型是TCHAR(通用字符类型)。当你定义了_UNICODE宏的时候,TCHAR就是WCHAR,当你没有定义这个宏的时候,TCHAR就是char,很不可思议吧,我们可以来看一下TCHAR的定义:
3 n) P" K, w7 C, c& K( J( ]
3 O) d' h! `$ h/ d5 @( H+ f4 X
#ifdef UNICODE // r_winnt
' h5 W3 K3 O2 v8 ~7 }
typedef WCHAR TCHAR, *PTCHAR;
% w7 x& U! Y6 ~1 K0 e
#else /* UNICODE */ // r_winnt
6 w- _9 f M1 K, E: l% W
typedef char TCHAR, *PTCHAR;
; a1 e6 ~. o7 E: n
#endif /* !_TCHAR_DEFINED */
( S% g) l" @2 g1 a2 f
* n5 d) z3 J$ Q8 b# ^
上面的代码来自WINNT.H,我剔除了一些无关的部分。
0 i9 h& `# s1 o ?9 f3 S+ h* h
现在一切都显而易见了。
6 H1 V1 x$ A0 t( a* X- q$ b
通过TCHAR,我们只需要这样一段代码:
/ ^- b$ d) q" O6 g
TCHAR tStr[] = _T("t code");
* A1 c* Q( C( n/ {
MessageBox(tStr);
1 }: Y7 t) h6 H3 L! B
就可以支持UNICODE和MULTIBYTE两种版本。_T宏的作用就是转换成TCHAR。
8 @& u0 E/ _8 Q% s1 K. Y
5 p a+ U6 K# _- P
2)关于其他的处理
! r8 l8 y3 J* Y) {% W0 `: U% e8 T0 `
首先是常用的CString,它本身就支持UNICODE。下面的例子说明了用法:
: z" z9 u$ B" x/ f
+ H1 J, X2 n3 d. g+ S
CString *pFileName = new CString("c:\\tmpfile.txt");
2 c8 G* q0 S6 T8 r! n
% ?8 }8 K0 f' ~; _, g3 Y, j
#ifdef _UNICODE
' q9 c, R5 V& k: b$ F+ }
" m( q( |& t( j8 J* R- ^; e
m_hFile = CreateFile(pFileName->AllocSysString(),
g9 c$ p" E3 x, x- L" |/ \! s
GENERIC_READ | GENERIC_WRITE,
) @! l6 g1 h" a
FILE_SHARE_READ,
: @ h! v i+ d( D& V4 P/ b9 l
NULL,
& z/ T0 M( |: R% C* ~
OPEN_EXISTING,
6 `# R {4 t- t) b' E
FILE_ATTRIBUTE_NORMAL,
- d: H( o* e# n) I; ]; ~
NULL);
a! a. z+ N$ n
#else
- U2 P5 f$ f* |3 O1 m
m_hFile = CreateFile(pFileName->GetBuffer(pFileName->GetLength()),
/ L% m: R/ I9 _$ s$ V
GENERIC_READ | GENERIC_WRITE,
. R ~( f. F, m$ m; {
FILE_SHARE_READ,
3 W z+ I- M; m: x; ~. i
NULL,
: {8 Z% P% F1 p
OPEN_EXISTING,
7 i! K$ r' \" s8 Y- [7 B3 h
FILE_ATTRIBUTE_NORMAL,
% L4 ]8 S5 O- B- V/ i
NULL);
7 a" Z# L* r J) X' W; K6 W, s% u
#endif
3 |# q' z- f2 i
0 `8 b2 E0 q; U5 Z0 L) u) g
3) 当我们在UNICODE方式中需要为一个字串常量赋值时可以使用L宏,如:
% Q; E, P! U0 ?8 h- n5 D% m
BSTR wcsStr = L"unicode";
1 Y0 A2 N n8 s M9 A
这样的附值很简便,但是,经过L宏处理后的字串一定是UNICODE,如果你把它赋给一个MULTIBYTE的字串,字符将可能会被截断。
/ |9 B0 z; I$ u) B1 L
! [' o% A( H8 H0 U9 l* f) x
另外,VC还提供了一些函数如WideCharToMultiByte和MultiByteToWideChar还有另外的一些宏来支持转换。大家可以看MSDN。
( }4 E% W/ o6 C, N, X& Q3 G4 p$ o
8 @) E. S( L8 X& j
) P( c" z+ ], ~& o' k3 `2 m: F: _
3.编译器的设置:
0 c% w3 M5 ]: _3 L _
首先我们需要在project->settings->C/C++的属性页中的Preprocessor中写入_UNICODE,然后在link属性页中Category中选择output,在Entry-Point symbol 中添加wWinMainCRTStartup,这样,我们的UNICODE工程便大功告成。</FONT></P>
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5