1 G6 P, z ?3 W) N4 H<IMG src="http://www.vckbase.com/document/image/paragraph.gif"> <B>使用字符串处理函数</B> " A1 j$ _+ L/ ]7 T5 N: H1 L5 Y0 ~3 N# b7 L/ v
我们都已经见过C语言中的字符串函数,strcpy(), sprintf(), atoll()等。这些字符串只应该用来处理单字节字符字符串。标准库也提供了仅适用于Unicode类型字符串的函数,比如wcscpy(), swprintf(), wtol()等。 " H: \/ h' T7 U$ s% u- e9 h 微软还在它的CRT(C runtime library)中增加了操作DBCS字符串的版本。Str***()函数都有对应名字的DBCS版本_mbs***()。如果你料到可能会遇到DBCS字符串(如果你的软件会被安装在使用DBCS编码的国家,如中国,日本等,你就可能会),你应该使用_mbs***()函数,因为他们也可以处理SBCS字符串。(一个DBCS字符串也可能含有单字节字符,这就是为什么_mbs***()函数也能处理SBCS字符串的原因)1 ?2 H0 d( F1 f9 w+ m p
让我们来看一个典型的字符串来阐明为什么需要不同版本的字符串处理函数。我们还是使用前面的Unicode字符串 L"Bob":</P>2 B0 P6 }" m5 Q8 s8 P: P5 E, J* l
<TABLE> ( l8 N5 R7 ~4 y e0 F- B# u8 A0 n1 m+ ^1 ]1 I
<TR> / i- Y$ m, n2 Q) a" p; g<TD align=middle width="25%">42 00 </TD>; A5 G- x' S4 Q& x- O
<TD align=middle width="25%"><FONT color=#990000>6F</FONT> 00</TD> + \& G9 P I$ d# o- p. r<TD align=middle width="25%">62 00</TD> ' B4 V/ Q: s% e2 d+ K/ r! J<TD align=middle width="25%">00 00</TD></TR> ) p1 S X r+ r<TR> # I" q8 @# k1 [+ C: n5 [# w<TD align=middle width="25%"><FONT color=#990000>B</FONT></TD> , ~/ @. t5 n9 e2 X2 x3 O$ |<TD align=middle width="25%"><FONT color=#990000>o</FONT></TD>4 p& ?0 f9 U% @& k; |
<TD align=middle width="25%"><FONT color=#990000>b</FONT></TD>' D+ T( Q/ s+ V* @! `' z5 Z4 r
<TD align=middle width="25%"><FONT color=#990000>BOS</FONT></TD></TR></TABLE> 7 v8 v: C* u, \- S" H# v; q! T! k& s<> 因为x86CPU是little-endian,值0x0042在内存中的存储形式是42 00。你能看出如果这个字符串被传给strlen()函数会出现什么问题吗?它将先看到第一个字节42,然后是00,而00是字符串结束的标志,于是strlen()将会返回1。如果把"Bob"传给wcslen(),将会得出更坏的结果。wcslen()将会先看到0x6f42,然后是0x0062,然后一直读到你的缓冲区的末尾,直到发现00 00结束标志或者引起了GPF。 8 K+ m5 q4 s1 ^2 i3 L3 c, I 到目前为止,我们已经讨论了str***()和wcs***()的用法及它们之间的区别。Str***()和_mbs**()之间的有区别区别呢?明白他们之间的区别,对于采用正确的方法来遍历DBCS字符串是很重要的。下面,我们将先介绍字符串的遍历,然后回到str***()与_mbs***()之间的区别这个问题上来。: ]5 v) D$ N* p1 D8 S) m
8 D4 ]$ I$ W( K1 L
<IMG src="http://www.vckbase.com/document/image/paragraph.gif"> <B>正确的遍历和索引字符串</B> y* M3 F( W: y
- }; @# Q( _: h' z1 w3 Y
因为我们中大多数人都是用着SBCS字符串成长的,所以我们在遍历字符串时,常常使用指针的++-和-操作。我们也使用数组下标的表示形式来操作字符串中的字符。这两种方式是用于SBCS和Unicode字符串,因为它们中的字符有着相同的宽度,编译器能正确的返回我们需要的字符。3 f" d% m) i4 L3 }4 I J
然而,当碰到DBCS字符串时,我们必须抛弃这些习惯。这里有使用指针遍历DBCS字符串时的两条规则。违背了这两条规则,你的程序就会存在DBCS有关的bugs。</P> " X: m9 a, [ ~<DIR>% c# z5 N, S/ N. W
<LI>1.在前向遍历时,不要使用++操作,除非你每次都检查lead byte; : M, w, E, y9 x8 U
<LI>2.永远不要使用-操作进行后向遍历。 </LI></DIR>/ v3 @" ?5 S" H& C& @* e4 s$ u+ }% R
<> 我们先来阐述规则2,因为找到一个违背它的真实的实例代码是很容易的。假设你有一个程序在你自己的目录里保存了一个设置文件,你把安装目录保存在注册表中。在运行时,你从注册表中读取安装目录,然后合成配置文件名,接着读取该文件。假设,你的安装目录是C:\Program Files\MyCoolApp,那么你合成的文件名应该是C:\Program Files\MyCoolApp\config.bin。当你进行测试时,你发现程序运行正常。. H' w3 x* x2 a+ B- m! f3 m
现在,想象你合成文件名的代码可能是这样的:</P><RE>bool GetConfigFileName ( char* pszName, size_t nBuffSize ) , p5 ]9 ?% g. N; Y% z* J{( C3 S0 [' Z7 d* y, ^
char szConfigFilename[MAX_PATH];: j0 c0 i( U. f; m" v
6 j- ~( Z3 }% ?0 q6 y // Read install dir from registry... we''ll assume it succeeds.3 Y6 l- a! Y6 k! D7 H8 J
2 j4 l. \/ t7 _$ E // Add on a backslash if it wasn''t present in the registry value. 2 J7 ]0 ^& q( j% J- C // First, get a pointer to the terminating zero., ~/ M* R. s3 }, {5 O
char* pLastChar = strchr ( szConfigFilename, ''\0'' );' B( F. f3 T6 {9 P7 c
: J2 Y' v) |, z2 }6 J" B
// Now move it back one character. J; o! K& k, }9 ]$ J$ P) i
pLastChar--; ( E" c" A+ p" n B5 | 7 `- A W% f' Y) j7 D W if ( *pLastChar != ''\\'' )7 I8 T6 F8 j" @; {- H$ v& R
strcat ( szConfigFilename, "\\" ); J" [# y/ b: f" F# N$ Z, e " E- J, K' X& `( @( Q
// Add on the name of the config file. " T3 o& h% \ Q2 L, A strcat ( szConfigFilename, "config.bin" ); # H, t2 o, { U7 w2 S 4 Z1 n- q9 v) B8 E/ \. R% T! h6 W
// If the caller''s buffer is big enough, return the filename.4 t5 S( L' X+ ~; T, n w; y% e2 t
if ( strlen ( szConfigFilename ) >= nBuffSize )+ M# U) m9 K- c
return false; - Z5 s. [5 L$ @7 T; V6 n" t0 J$ `$ a" t! \ else : k) O& w: f: B" B0 r/ O { ) ?* l& s4 ^/ l strcpy ( pszName, szConfigFilename ); 3 g- O B$ o) J2 H return true; ' L. y' ?; T: x+ ~9 M } 4 E% K: `7 h4 g% W. W) `; X} </PRE> 这是一段很健壮的代码,然而在遇到 DBCS 字符时它将会出错。让我们来看看为什么。假设一个日本用户使用了你的程序,把它安装在 C:\<IMG src="http://www.vckbase.com/document/journal/vckbase30/images/youkoso.gif" border=0>。下面是这个名字在内存中的存储形式:0 b) a% _! ] _0 O7 K6 X* V3 Q3 V! h
3 h3 M, q1 K- F4 z( z h
<TABLE> 8 }* x: n& n( v* b8 e# w( o) v F0 n7 o5 H8 M: ^
<TR>) E3 C" C. v' S7 S, Y/ w
<TD align=middle width="12%">43</TD>1 P! d) J% K5 ]
<TD align=middle width="12%"><FONT color=#990000>3A</FONT></TD> 4 M6 L# u* K8 |- ]4 u<TD align=middle width="12%"><FONT color=#0000ff>5C</FONT></TD>+ m- o" H" \& m* g; }7 P8 g
<TD align=middle width="12%">83 88</TD> O. D, y; `% O& F
<TD align=middle width="13%">83 45</TD> 2 \2 x( b) {% d/ u# A0 v+ G<TD align=middle width="13%">83 52</TD> _ w8 Q: L$ p8 E% [
<TD align=middle width="13%">83 <FONT color=#0000ff>5C</FONT></TD> 5 }7 F2 K* L1 d( x S$ Y2 E9 _<TD align=middle width="13%">00</TD></TR> - V# s; ]4 m, P% n) k, z<TR>0 j9 j1 |; A. s
<TD align=middle width="12%"> </TD> ) _* ?: T& z. j& t P. H; K8 f. z! h<TD align=middle width="12%"> </TD>1 x6 W; i& m0 p& l5 z/ R! V
<TD align=middle width="12%"> </TD>7 b" D4 X. ]7 E) r
<TD align=middle width="12%"><FONT color=#990000>LB TB </FONT></TD>9 Q1 R$ P7 @9 K
<TD align=middle width="13%"><FONT color=#990000>LB TB </FONT></TD> + O# L& S1 y) O<TD align=middle width="13%"><FONT color=#990000>LB TB </FONT></TD>& H/ R C+ w$ p7 F+ B- _
<TD align=middle width="13%"><FONT color=#990000>LB TB </FONT></TD> / `: [/ j* b& }9 h$ u' [<TD align=middle width="13%"> </TD></TR>; I! `/ E$ S* V. A( `
<TR># a/ n0 @2 M: ]# M
<TD align=middle width="12%">C</TD> " W$ T# z+ B" t- l<TD align=middle width="12%">:</TD> , q" C* v; m& Q$ U( E! t8 ?. R<TD align=middle width="12%">\</TD># u1 C% z0 S/ d% x, t
<TD align=middle width="12%"><IMG src="http://www.vckbase.com/document/journal/vckbase30/images/yo.gif" border=0></TD>" `( _$ c7 a. Y( o
<TD align=middle width="13%"><IMG src="http://www.vckbase.com/document/journal/vckbase30/images/u.gif" border=0></TD>( J) \; v5 Q6 k2 O$ L
<TD align=middle width="13%"><IMG src="http://www.vckbase.com/document/journal/vckbase30/images/ko.gif" border=0></TD> : ^0 [' ?$ I& e- W<TD align=middle width="13%"><IMG src="http://www.vckbase.com/document/journal/vckbase30/images/so.gif" border=0></TD> 6 |4 Y0 r. N" g1 R<TD align=middle width="13%">EOS</TD></TR></TABLE>; N8 m% R- y# ~$ q' L, B3 [: }
<> 当使用 GetConfigFileName() 检查尾部的''\\''时,它寻找安装目录名中最后的非0字节,看它是等于''\\''的,所以没有重新增加一个''\\''。结果是代码返回了错误的文件名。 & b' ~3 j! I9 D- d* }* g" [! }; S 哪里出错了呢?看看上面两个被用蓝色高量显示的字节。斜杠''\\''的值是0x5c。'' ''的值是83 5c。上面的代码错误的读取了一个 trail byte,把它当作了一个字符。2 j- m/ E! Q/ g/ X; b9 p
正确的后向遍历方法是使用能够识别DBCS字符的函数,使指针移动正确的字节数。下面是正确的代码。(指针移动的地方用红色标明) </P><RE>bool FixedGetConfigFileName ( char* pszName, size_t nBuffSize ) 7 I2 ]8 w# i# l1 E- k' e6 P{ 1 m2 ^0 B' g4 G char szConfigFilename[MAX_PATH]; 7 V8 C3 r' B. e2 w5 x, l h * O0 G2 j* i' Y& [. q
// Read install dir from registry... we''ll assume it succeeds.7 v* c& O1 ?, O( L# i
0 {, C( k; O& z# I$ O // Add on a backslash if it wasn''t present in the registry value.4 y; y% V' a, v' j- a2 q" N' I( |# r
// First, get a pointer to the terminating zero. & d/ [0 D) E. M$ [; }6 B char* pLastChar = _mbschr ( szConfigFilename, ''\0'' ); 3 P% L7 n' `9 C: u4 I# ^ " Q1 Z N( ^% i+ B/ Y: _$ a
// Now move it back one double-byte character. % T& Z$ t( ^( ? <FONT color=#ff0000> pLastChar = CharPrev ( szConfigFilename, pLastChar );</FONT> " q3 X$ _" j4 H: ?0 g( _ & W' ^# S n9 \0 E C if ( *pLastChar != ''\\'' )9 o; u4 [0 z: Z# [
_mbscat ( szConfigFilename, "\\" ); , F. T% o# z4 L( r - p5 @; N- Y. s- V // Add on the name of the config file. * f* H3 o7 ^ { _mbscat ( szConfigFilename, "config.bin" );7 q, ]- [+ M4 e- [( Y3 A
+ ~0 A X2 ]( N8 s4 V) @3 B // If the caller''s buffer is big enough, return the filename. 7 f: N& f& q! u4 h if ( _mbslen ( szInstallDir ) >= nBuffSize )3 x8 D) L S% g" H4 b
return false; ; D0 G* z# u4 m) W9 [( F* K9 R else1 i( t H# Y. z# s0 Z H
{8 N+ X0 Y- X2 s$ g! m
_mbscpy ( pszName, szConfigFilename ); ; R) Q. Q8 Z3 F% n. R return true; 8 U& e! _( Z' q' h2 b! G } - ?: _/ ?8 r& R% H% v} ( U6 T- _0 h+ k# P</PRE> 上面的函数使用CharPrev() API使pLastChar向后移动一个字符,这个字符可能是两个字节长。在这个版本里,if条件正常工作,因为lead byte永远不会等于0x5c。; x3 @( L& S5 U: U! K% |
让我们来想象一个违背规则1的场合。例如,你可能要检测一个用户输入的文件名是否多次出现了'':''。如果,你使用++操作来遍历字符串,而不是使用CharNext(),你可能会发出不正确的错误警告如果恰巧有一个trail byte它的值的等于'':''的值。 & s/ T: r$ k8 N E# }0 o( t与规则2相关的关于字符串索引的规则:<RE>2a. 永远不要使用减法去得到一个字符串的索引。</PRE> 4 \0 t7 q7 N w% r, z& _8 a<>违背这条规则的代码和违背规则2的代码很相似。例如,</P><RE>char* pLastChar = &szConfigFilename [strlen(szConfigFilename) - 1];</PRE> + _: |& V% B' ?( \2 t<>这和向后移动一个指针是同样的效果。# m( i# A7 `8 D* y2 M
( Q8 I& X4 {& [- [) |8 _1 \<IMG src="http://www.vckbase.com/document/image/paragraph.gif"><B> 回到关于str***()和_mbs***()的区别</B> * r, o" u- x, C* N" q . f% x5 h/ [: a4 z* f" } 现在,我们应该很清楚为什么_mbs***()函数是必需的。Str***()函数根本不考虑DBCS字符,而_mbs***()考虑。如果,你调用strrchr("C:\\ ", ''\\''),返回结果可能是错误的,然而_mbsrchr()将会认出最后的双字节字符,返回一个指向真的''\\''的指针。 f* H: e- @9 i8 A) W, I
关于字符串函数的最后一点:str***()和_mbs***()函数认为字符串的长度都是以char来计算的。所以,如果一个字符串包含3个双字节字符,_mbslen()将会返回6。Unicode函数返回的长度是按wchar_t来计算的。例如,wcslen(L"Bob")返回3。2 i2 Y, ?- \; ~) I2 ~6 b; G* G
% y. L/ r, S' f+ h8 Q8 a& J
<IMG src="http://www.vckbase.com/document/image/paragraph.gif"><B> Win32 API中的MBCS和Unicode</B>7 F; b& ?8 M; {$ k
. y" Z% u9 w4 p5 i4 A: H
两组 APIs: ' g% d" b. B: H/ O 尽管你也许从来没有注意过,Win32中的每个与字符串相关的API和message都有两个版本。一个版本接受MBCS字符串,另一个接受Unicode字符串。例如,根本没有SetWindowText()这个API,相反,有SetWindowTextA()和SetWindowTextW()。后缀A表明这是MBCS函数,后缀W表示这是Unicode版本的函数。 + l2 H. | }, E3 K& ]3 x! Z+ `7 ?$ D 当你 build 一个 Windows 程序,你可以选择是用 MBCS 或者 Unicode APIs。如果,你曾经用过VC向导并且没有改过预处理的设置,那表明你用的是MBCS版本。那么,既然没有 SetWindowText() API,我们为什么可以使用它呢?winuser.h头文件包含了一些宏,例如: </P><RE>BOOL WINAPI SetWindowTextA ( HWND hWnd, LPCSTR lpString );! X5 g3 W0 L7 `$ A+ u: r
BOOL WINAPI SetWindowTextW ( HWND hWnd, LPCWSTR lpString );+ e" \% W' Q) m1 J+ _9 F. E" k$ A