数学建模社区-数学中国

标题: UNICODE编程介绍 [打印本页]

作者: xShandow    时间: 2004-6-4 09:06
标题: UNICODE编程介绍
<><FONT face=宋体>这是一个许多人(包括我自己)曾经或至今仍疑惑的问题(这里我们只讨论UTF-16,即双字节版本)。
. o) l+ {9 y( b6 X# f8 \% D$ n
) l/ I7 ~, }5 f- Z! [2 m2 V# M+ }1.关于UNICODE3 r" Q8 k0 D+ b# j- i1 c- B% G
  首先,UNICODE主要使用的字符类型是WCHAR,定义是unsigned short。从定义我们可以看出这是一个双字节的类型,就是每一个字符占2个字节。这样的话,可以表示的字符类型就可以多达6万多。所有之前的ASCII码分布在0x0000-0x00ff之间,而汉字(包括big5)分布在0x4e00到0x9fff之间。整个unicode包含了几乎世界上所有的文字。关于UNICODE的细节,可以参看以下网页
8 [9 w) q  a4 I$ \  {, ]6 Q1 A<a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" >http://www.unicode.org/unicode/standard/translations/s-chinese.html</A><a href="http://www.unicode.org/unicode/standard/translations/s-chinese.html" target="_blank" ><FONT color=#000020></FONT></A>
5 g3 Z1 Z% S  R1 `; y$ q; U& [) \  E
/ f9 x7 `- `  o# w: u* G2.为什么要使用UNICODE" {( Y$ [; L* N  ^; y
  1) COM:在COM规范中,明确指定了必须使用UNICODE类型,这正是微软充分考虑了跨平台的结果。这也是为什么经常在COM中可以看到BSTR(WCHAR*)类型
6 \  D+ l1 R: I& V. f  u0 Q! R& i) L
  2)WIN2000和WINNT:在这两个平台中,默认的字符处理方式是UNICODE。即使你写了一个非UNICODE(multibyte)的程序,系统在执行的时候仍然会对你的字符进行一次转换,这样无疑浪费了CPU时间,使用UNICODE可以有效的提高程序的运行效率(仅使用于这两个平台)。当然将来的XP也会如此。0 M8 t0 M, c: {; c" p

1 ?2 A& ~  F2 }. S  g' ^/ @$ ~' Z4 f  3)通用性:使用UNICODE可以使我们不在为汉字和英文字符的判断而烦恼(都是2个字节)。; n* E9 E4 Z9 x4 S5 [  y1 K
- j4 X2 i- D5 s4 q* j
3.如何使用UNICODE $ S8 B7 J6 C$ [
  1)首先推荐的类型是TCHAR(通用字符类型)。当你定义了_UNICODE宏的时候,TCHAR就是WCHAR,当你没有定义这个宏的时候,TCHAR就是char,很不可思议吧,我们可以来看一下TCHAR的定义:; K4 U# q/ ~, v6 _! [: T
: W: z3 Z2 i4 x
#ifdef UNICODE // r_winnt3 d6 U) D2 S" c" c/ m% A
typedef WCHAR TCHAR, *PTCHAR;8 [6 x7 s3 s2 T
#else /* UNICODE */ // r_winnt
/ k1 B: S, ?6 K% ptypedef char TCHAR, *PTCHAR;& w+ R. T4 U- |) ?% M2 m  U' H
#endif /* !_TCHAR_DEFINED */: K% f. F- S0 ^4 R6 C2 ]! U, J+ a

% K# M/ N% P6 e0 Y# ]9 w上面的代码来自WINNT.H,我剔除了一些无关的部分。
* L/ z6 ^' _" X, O! {' \( _现在一切都显而易见了。2 D4 X- I; [1 O/ j
通过TCHAR,我们只需要这样一段代码:
) F2 v, Z& w9 l/ b5 \1 zTCHAR tStr[] = _T("t code");
5 ?. ^9 ?3 {, G+ O( |& uMessageBox(tStr);( z0 f- b6 C! X/ Z; S7 p' k: y
就可以支持UNICODE和MULTIBYTE两种版本。_T宏的作用就是转换成TCHAR。
- t0 H6 R- K0 S% O0 `" n) N7 D( v6 h& G3 e/ s0 R' i
2)关于其他的处理- S9 P& R, m" [
首先是常用的CString,它本身就支持UNICODE。下面的例子说明了用法:
4 H* I! G! N6 {( U0 q  y& M0 y$ e7 ^
# u2 [; f6 d! C/ b3 c: @, CCString *pFileName = new CString("c:\\tmpfile.txt");! G4 y( T* @- C- F) D. @

* w. t! p3 d2 ]0 l* }  I" n% C#ifdef _UNICODE: b4 a/ k4 p) H8 b/ g; D6 f3 d

: t" L5 J, l1 ~' G0 j. wm_hFile = CreateFile(pFileName-&gt;AllocSysString(),
2 b( x1 k& S8 ]8 C: uGENERIC_READ | GENERIC_WRITE,   b3 L3 B' o$ @4 `# G, q/ J: L+ ]
FILE_SHARE_READ,
: r' _) D5 [; x1 m" f* FNULL,
2 I8 D: O0 a! I  ?OPEN_EXISTING,. k) B8 F6 T6 \" S, a
FILE_ATTRIBUTE_NORMAL,
; t  E2 q8 v0 L6 @; g3 |NULL);
# i: k9 e$ }4 k, X0 e$ G#else
8 u( f/ Y( {/ h2 R4 ]m_hFile = CreateFile(pFileName-&gt;GetBuffer(pFileName-&gt;GetLength()), 4 H5 H1 h% H. f; z- Z' d7 N
GENERIC_READ | GENERIC_WRITE,
  I" h* Z! c0 A/ u8 L0 A# o. uFILE_SHARE_READ,5 j1 r' s5 m' \  E
NULL,
) Y: j/ d  M( b0 MOPEN_EXISTING,
% x& p; G1 F- @& ?- T( p! d3 GFILE_ATTRIBUTE_NORMAL, ; n+ u! k( T2 x% j. X
NULL);
7 o6 M7 J7 y" r) S  }0 p0 X& ?#endif& a8 ]/ q- |0 a# w' w* W

9 z7 N) C6 N; O( L& Q3) 当我们在UNICODE方式中需要为一个字串常量赋值时可以使用L宏,如:% ?' o& L1 k# |5 e. b* I# M
BSTR wcsStr = L"unicode";
3 q0 k) q& e6 G7 y7 s  这样的附值很简便,但是,经过L宏处理后的字串一定是UNICODE,如果你把它赋给一个MULTIBYTE的字串,字符将可能会被截断。4 W" o0 S) F( M# A" E& @

- W0 m0 g) p6 a3 _$ O' W  另外,VC还提供了一些函数如WideCharToMultiByte和MultiByteToWideChar还有另外的一些宏来支持转换。大家可以看MSDN。 5 d. S# F7 s  u* T% [

+ T: y9 {9 c; n8 N3 W0 }3 z( ?. ?* X* d) w. K
3.编译器的设置:; s5 f+ L4 O3 L
  首先我们需要在project-&gt;settings-&gt;C/C++的属性页中的Preprocessor中写入_UNICODE,然后在link属性页中Category中选择output,在Entry-Point symbol 中添加wWinMainCRTStartup,这样,我们的UNICODE工程便大功告成。</FONT></P>




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5