数学建模社区-数学中国
标题:
UNICODE编程介绍
[打印本页]
作者:
xShandow
时间:
2004-6-4 09:06
标题:
UNICODE编程介绍
<
><FONT face=宋体>这是一个许多人(包括我自己)曾经或至今仍疑惑的问题(这里我们只讨论UTF-16,即双字节版本)。
$ h8 E+ a' D! w6 M* O) A
( l+ r% V. p4 k8 G, g
1.关于UNICODE
{2 U7 E; g2 [1 J, s# \ M
首先,UNICODE主要使用的字符类型是WCHAR,定义是unsigned short。从定义我们可以看出这是一个双字节的类型,就是每一个字符占2个字节。这样的话,可以表示的字符类型就可以多达6万多。所有之前的ASCII码分布在0x0000-0x00ff之间,而汉字(包括big5)分布在0x4e00到0x9fff之间。整个unicode包含了几乎世界上所有的文字。关于UNICODE的细节,可以参看以下网页
9 s+ B6 \8 p" s0 n# {
<a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" >http://www.unicode.org/unicode/standard/translations/s-chinese.html</A><a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" ><FONT color=#000020></FONT></A>
9 g' T7 | o, @) v {
, E( s: Y% y1 H7 E: ?# ?
2.为什么要使用UNICODE
& n6 D; K3 [0 Y U$ o
1) COM:在COM规范中,明确指定了必须使用UNICODE类型,这正是微软充分考虑了跨平台的结果。这也是为什么经常在COM中可以看到BSTR(WCHAR*)类型
Y" f1 N4 y# t( f& [1 g8 ?
9 I1 j" t, b- ?0 O
2)WIN2000和WINNT:在这两个平台中,默认的字符处理方式是UNICODE。即使你写了一个非UNICODE(multibyte)的程序,系统在执行的时候仍然会对你的字符进行一次转换,这样无疑浪费了CPU时间,使用UNICODE可以有效的提高程序的运行效率(仅使用于这两个平台)。当然将来的XP也会如此。
8 S }" g6 ?" f: e( U. c# s, o+ ?4 M
# K" g* i! M# Y3 S2 e: L1 J" y
3)通用性:使用UNICODE可以使我们不在为汉字和英文字符的判断而烦恼(都是2个字节)。
5 t, F- W: s: f) J
0 k5 Q: R: ?, `+ W- M" ]
3.如何使用UNICODE
& x$ n( V( T5 J1 ?" W d# e9 a" y
1)首先推荐的类型是TCHAR(通用字符类型)。当你定义了_UNICODE宏的时候,TCHAR就是WCHAR,当你没有定义这个宏的时候,TCHAR就是char,很不可思议吧,我们可以来看一下TCHAR的定义:
' f6 f: ~2 Q5 i0 j& z( B# ^" [
. g0 u3 \0 n8 c1 C! V& U& @
#ifdef UNICODE // r_winnt
/ G/ b! S$ z& Y' w4 f. ?: `& n1 e V
typedef WCHAR TCHAR, *PTCHAR;
' K& S1 t* M/ f. s# p I
#else /* UNICODE */ // r_winnt
. E9 P- e% D! h6 k& }
typedef char TCHAR, *PTCHAR;
8 e1 p2 H2 v+ P1 A i, n
#endif /* !_TCHAR_DEFINED */
& e" }* A, A0 \& \# U
& _5 X- p4 E$ j% \' k1 N
上面的代码来自WINNT.H,我剔除了一些无关的部分。
7 d, O+ ?. n# w0 o% s
现在一切都显而易见了。
3 f5 C$ S7 b9 \/ I2 n" |9 J
通过TCHAR,我们只需要这样一段代码:
1 k$ h0 H; B& B
TCHAR tStr[] = _T("t code");
) g* _; P3 \7 y. k( H3 D
MessageBox(tStr);
, B* ~0 S8 l: R
就可以支持UNICODE和MULTIBYTE两种版本。_T宏的作用就是转换成TCHAR。
6 U" K y5 ?2 V. f' B
: c. w; ~! s# _5 r
2)关于其他的处理
, H& c- p0 Y# q" ]1 m7 S- q
首先是常用的CString,它本身就支持UNICODE。下面的例子说明了用法:
* E* i/ k; a" {. _6 [
9 O5 H, t" {$ A$ S R3 H
CString *pFileName = new CString("c:\\tmpfile.txt");
7 o3 M* Q# u- ?- [6 C3 C: G
3 n4 w r' Y# `; g' z
#ifdef _UNICODE
5 N7 o: S5 k) Y' w% B' ]+ G% Y
( \1 X, n2 Z5 o
m_hFile = CreateFile(pFileName->AllocSysString(),
# e+ R/ T9 ~* s' m k s/ T
GENERIC_READ | GENERIC_WRITE,
$ S5 `' L% x5 D9 E n1 w w1 j3 R
FILE_SHARE_READ,
3 N5 L" w2 Y- M$ Y1 w/ B! L* ~
NULL,
! }* ~+ E% A! u- e [
OPEN_EXISTING,
1 B7 k% G2 ]2 S/ E" U
FILE_ATTRIBUTE_NORMAL,
) o4 O2 j5 U6 g' {8 x+ Y e: j0 j
NULL);
9 M7 W2 g# w. { d+ o2 q4 h
#else
. Q2 a* N. G) M) M8 E
m_hFile = CreateFile(pFileName->GetBuffer(pFileName->GetLength()),
& P9 c) V& c" M2 C8 t# j
GENERIC_READ | GENERIC_WRITE,
; m/ b5 m) C) Y% }
FILE_SHARE_READ,
; O1 W; Q/ [$ H# l0 N r* y* q6 J
NULL,
8 H, a' V$ ]7 K" S3 v$ @
OPEN_EXISTING,
! M' i; d2 I; b( [2 g! k7 J
FILE_ATTRIBUTE_NORMAL,
# H" l3 {# E3 F! Z: e5 g& D. [( [
NULL);
4 R; y5 X- w% N3 R( W- _
#endif
0 Z: E, o0 o- e# M& p
3 e( D% v/ z5 I* C
3) 当我们在UNICODE方式中需要为一个字串常量赋值时可以使用L宏,如:
. L+ z; p3 S ]
BSTR wcsStr = L"unicode";
$ L( V2 n6 p9 ^
这样的附值很简便,但是,经过L宏处理后的字串一定是UNICODE,如果你把它赋给一个MULTIBYTE的字串,字符将可能会被截断。
& `, a) p# f2 _) g
: t, t$ T3 k% ^- Q! U, G) m
另外,VC还提供了一些函数如WideCharToMultiByte和MultiByteToWideChar还有另外的一些宏来支持转换。大家可以看MSDN。
" x6 |9 n$ ^& k% y0 I) E% |1 h, J) _
7 z6 K# R/ Q: U V
0 P$ k- x! T* f1 \3 S
3.编译器的设置:
4 X! o9 D/ H# \ i# u% }6 @
首先我们需要在project->settings->C/C++的属性页中的Preprocessor中写入_UNICODE,然后在link属性页中Category中选择output,在Entry-Point symbol 中添加wWinMainCRTStartup,这样,我们的UNICODE工程便大功告成。</FONT></P>
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5