(转)字符串编码的那点事


  最近总感觉心里空落落的,今天就写点东西踏实踏实吧,而且博客很久没有加入新的博文了,得赶紧补充点新东西了^_^
  
  今天就谈谈一些和字符串编码相关的事吧,公司有个新同事对这个问题一直很纠结,我想很多开发人员对此不一定搞得很明白,因为字符串编码这些东西太过杂乱,让大家总感觉摸不到头脑,我这里简单总结一下一些和字符串编码相关的小经验,拿出来大家一起讨论讨论。
  
  1. 理清楚ANSI和Unicode
  
  做过Win32开发的人,对这些应该很熟悉,VC中的CStringA,CStringW,_T宏,Windows API中一堆带A或带W的函数就和这有关。
  
  这需要慢慢理出头绪来。
  
  我们现在的计算机能够直接输入的只有ASCII码,这样的字符很少,ASCII码标准中定义了128个,这些字符的存储只需要一个字节就可以全部涵盖了,对应C语言就是char类型,就是我们所说的字符类型,其实实际意义上的ANSI标准就是这里的ASCII编码标准。
  
  早期的计算机程序在处理字符型数据时都是以这样的思路来开发的,即一个字节存储一个字符。当非英语语系的国家需要使用计算机时,他们该如何表示自己的文字?像我们的汉字,何止成千上万,一个字节根本无法满足,所以这些研发人员就需要思考如何对自己国家的文字进行编码以便让计算机处理,这里对应我们的简体中文汉字就是常见的GB2312,GBK,GB18030等,繁体中文像BIG5等。这些编码是以国家为界限的,有的是以语言种类为界限的,比如当一个程序既要处理中文简体,中文繁体,韩文等,它怎么知道一个非ASCII的编码到底是简体中文还是繁体中文,亦或是韩文?这里没有任何标志!(顺便提一下,各个国家为了区分本国字符和ASCII字符的区别,基本都将编码字节的最高位,置为1,因为ASCII码只占用了一个字节中的低7位,最高位是0)
  
  上述这些编码我们一般统称为MBCS编码,即多字节编码,也有叫窄字节编码。其实Win32中A本意指ANSI,实际上处理的是MBCS编码。
  
  MBCS的缺点就是不统一,各自为政,给应用程序的跨语言应用带来不小的麻烦,所以全球统一编码就诞生了,也就是Unicode。
  
  Unicode编码为涵盖全球所有的字符而设计,在Unicode字符集中,所有编码的存储长度都是统一的,大家一视同仁,并且同类语言都是分区存放的,能够很好的根据一个字符的编码确定该字符是哪国语言,这就为跨语言的应用开发带来了极大的便利。
  
  2. UTF8编码:为了兼容ANSI的Unicode
  
  凡事有利也有弊,在这里就很好的体现了出来。在Unicode概念提出来之前,N多的应用程序都是基于ANSI开发的,这类程序在处理字符串时很多都是以\0来判断字符串结尾的,尤其是C语系的语言开发的程序,这在Unicode中就玩不转了,比如Win32下的Unicode编码存储都是双字节的,ASCII字符对应的Unicode编码的高字节都是\0,所以这类程序在处理Unicode编码的代码就必须要大改,而且很多标准库函数都不能用了。导致最初Unicode的发展受到了很大程度的抵制,因为乌托邦的到来是以重度自残为前提的。所以急需一套编码标准能够更好的兼容ANSI编码,所以就有了UTF8编码
  
  其实UTF8的主要目的就是让基于ANSI开发的程序能够以最小的修改来达到兼容Unicode编码的目的。UTF8的一个特点就是字符串的结尾仍然是\0,但是其他非ASCII的编码是不等长的,可能是2个字节,也可能是3个字节,4个字节等等。像strcmp,strlen,strcpy等标准库函数还是可以用的,而不至于错的那么离谱。
  
  这里有必要理一理UTF8和Unicode、ANSI的关系
  
  首先,UTF8是为了兼容ANSI而设计的。可以将UTF8认为是一种MBCS编码,只是这种编码和Unicode编码存在一一对应的关系,你能够从UTF8字节流中得到具体字符的边界,并将其对应到Unicode编码中来,这样UTF8也是全球统一的。
  
  其次,从概念上区别UTF8和Unicode。其实Unicode只是一种字符到编码的规范,至于编码如何存储,如何传输,Unicode本身是不做规范的,所以才会有一般说的Win32中每个Unicode字符都是双字节编码,而Linux中的gcc则是每个Unicode编码都是4字节编码。
  
  从UTF8的英文缩写也能够看出来其含义,Universal Transformation Format即统一传输格式,UTF8只是定义了Unicode的传输和存储标准,丝毫不影响Unicode作为统一编码这一特性
  
  3. char还是wchat_t,或者是TCHAR;什么是_T,TEXT,L;CStringA还是CStringW,或者CString;std::string还是std::wstring
  
  说完了编码规范,再来说说编码和编程的关系,首先要强调一点,字符串编码只是和字符串存储有关,和其他的没有关系,包括字符串显示等。
  
  char大家都很熟悉,在C中代表一个字符,存储长度是1个字节。wchar_t有些人可能接触不多,尤其是初学者,在C中其实就是通过typedef定义的unsigned short类型,但是在C++被语言接纳,定义为C++的内置类型,和int,char等是一样的,代表一个存储Unicode编码字符。
  
  现在有个问题,如果我们在程序中使用常量字符串的话,怎么定义Unicode编码的常量字符串?这里就要用到L关键字,以前定义一个ANSI字符串可以这样”abc”,当要以Unicode编码存储的话,就需要这样定义为L”abc”。
  
  VC中为了统一ANSI和Unicode的编码定义,通过宏定义了TCHAR类型,在这里可以将_T,TEXT拉进来一起说。
  
  TCHAR类型是一种宏定义类型,当宏变量_UNICODE(Win32定义)或者UNICODE(C标准库定义)有效时,TCHAR等于wchar_t,否则TCHAR代表char类型。
  
  对应的当定义上述变量时,_T,TEXT就是L,否则为空。所以VC初学者经常见到这样的字符串定义_T(“abc”),TEXT(“abc”),其实就是针对上面两个宏的自适应常量字符串,当定义上述宏变量时,_T(“abc”)等于L”abc”,否则就是”abc”
  
  对应的可能也会见到这样的函数_tcscpy,其实就是wcscpy和strcpy的自适应宏定义。
  
  所以我们常使用的一些Windows API函数,像GetWindowText其实是没有的,有的只是GetWindowTextA和GetWindowTextW,因为这也是自适应宏定义。
  
  CStringA和CStringW是MFC中定义了字符串存储处理,用于管理和处理字符串,有了上面的描述,就不难理解CStringA和CStringW的区别了,其实CStringA就是CStringT,CStringW就是CStringT,其中CStringT是一个模板类。它本质上就是一堆处理字符数组的函数集合体。
  
  std::string和std::wstring是C++标准库中定义的类,对应的就是basic_string和basic_string,应该不难理解


文章作者: 2356
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 2356 !