Unicode字符集 Unicode字符集中最大允许有多少字符?目前已经定义了多少...

\u5982\u4f55\u5728\u7a0b\u5e8f\u4e2d\u4f7f\u7528unicode\u5b57\u7b26\u96c6

java\u4e2d\u53ef\u4ee5\u4f7f\u7528char\u7c7b\u63d0\u4f9b\u7684charAt()\u65b9\u6cd5\u6765\u83b7\u5f97\u5b57\u7b26\u7684unicode\u7684\u7f16\u7801\u503c\uff0c\u793a\u4f8b\u5982\u4e0b\uff1a

public static String getUnicode(String source){ String returnUniCode=null; String uniCodeTemp=null; for(int i=0;i<source.length();i++){ uniCodeTemp = "\\u"+Integer.toHexString((int)source.charAt(i));//\u4f7f\u7528char\u7c7b\u7684charAt()\u7684\u65b9\u6cd5 returnUniCode=returnUniCode==null?uniCodeTemp:returnUniCode+uniCodeTemp; } System.out.print(source +" 's unicode = "+returnUniCode); return returnUniCode;//\u8fd4\u56de\u4e00\u4e2a\u5b57\u7b26\u7684unicode\u7684\u7f16\u7801\u503c}

\u6700\u521d\u7684unicode\u7f16\u7801\u662f\u56fa\u5b9a\u957f\u5ea6\u7684\uff0c16\u4f4d\uff0c\u4e5f\u5c31\u662f2\u4e24\u4e2a\u5b57\u8282\u4ee3\u8868\u4e00\u4e2a\u5b57\u7b26\uff0c\u8fd9\u6837\u4e00\u5171\u53ef\u4ee5\u8868\u793a65536\u4e2a\u5b57\u7b26\u3002\u663e\u7136\uff0c\u8fd9\u6837\u8981\u8868\u793a\u5404\u79cd\u8bed\u8a00\u4e2d\u6240\u6709\u7684\u5b57\u7b26\u662f\u8fdc\u8fdc\u4e0d\u591f\u7684\u3002Unicode4.0\u89c4\u8303\u8003\u8651\u5230\u4e86\u8fd9\u79cd\u60c5\u51b5\uff0c\u5b9a\u4e49\u4e86\u4e00\u7ec4\u9644\u52a0\u5b57\u7b26\u7f16\u7801\uff0c\u9644\u52a0\u5b57\u7b26\u7f16\u7801\u91c7\u75282\u4e2a16\u4f4d\u6765\u8868\u793a\uff0c\u8fd9\u6837\u6700\u591a\u53ef\u4ee5\u5b9a\u4e491048576\u4e2a\u9644\u52a0\u5b57\u7b26\uff0c\u76ee\u524dunicode4.0\u53ea\u5b9a\u4e49\u4e8645960\u4e2a\u9644\u52a0\u5b57\u7b26\u3002
Unicode\u53ea\u662f\u4e00\u4e2a\u7f16\u7801\u89c4\u8303\uff0c\u76ee\u524d\u5b9e\u9645\u5b9e\u73b0\u7684unicode\u7f16\u7801\u53ea\u8981\u6709\u4e09\u79cd\uff1aUTF-8,UCS-2\u548cUTF-16\uff0c\u4e09\u79cdunicode\u5b57\u7b26\u96c6\u4e4b\u95f4\u53ef\u4ee5\u6309\u7167\u89c4\u8303\u8fdb\u884c\u8f6c\u6362\u3002

我们一般通常使用的字符集有:ASCII ISO-8859-1 GB2312 big5 GBK Unicode2.0,另外还有一种基于32位的GB18030字符集是国家新出来的一种字符集,其为一个汉字设计了4个字节,因此可以说是目前为止,对汉字支持无论是简体还是繁体都是支持比较好的一种,当然主要的缺点就是太占空间,不利于在网路上传输。

如果不考虑GB18030字符集的话,最详尽的字符集应该是Unicode了,差不多支持了GBK所支持的所有汉字不敢过总量上还是稍微差一点。GBK尽管不是国家标准,但是已经成为事实上的一个行业标准,同时支持汉字的简体和繁体两种字体。比Gig5和GB2312强大些,为了更加明确的说明各个字符间的差异,先详细说明如下:

ASCII:
7位字符集,包括52个大小写英语字母,10个阿拉伯数字,1个空格,32个符号。
适用于纯英文环境,兼容性最好,在其他各种字符集下都能正确识别;不适用于英语以外的环境。

Latin1(ISO-8859-1):8位字符集,向下兼容ASCII字符集,并增加了一些西欧语言中的字母和符号。
优点:适用于西欧语种,得到世界广泛的软件支持;
缺点:不能表示拉丁语系以外的语言,不兼容少量只使用7位字符集的古老程序。

GB2312:16位字符集,收录有6763个简体汉字,682个符号;
优点:适用于简体中文环境,属于中国国家标准,在大陆(和新加坡?)得到广泛支持;
缺点:不兼容繁体中文,其汉字集合过少。

big5:16位字符集,收录有13060个繁体汉字,440个符号;
优点:适用于繁体中文环境,属于台湾官方标准,为繁体Windows所使用,在台湾和香港得到广泛支持,而且,由于台湾软件业发展较早,国外软件支持big5的比支持gb2312/gbk的要多;
缺点: 不兼容简体中文环境,和gb2312之间需要转换。

GBK:16位字符集,收录有21003个汉字,883个符号;
优点:适用于简繁中文共存的环境,为简体Windows所使用(代码页cp936),向下完全兼容gb2312;
缺点:不属于官方标准,和big5之间需要转换。

GB18030:32位字符集;收录汉字数不详,应该相当详尽。
优点:可以收录所有你能想到的文字和符号,属于中国最新的国家标准;
缺点:由于空间使用效率低(一个汉字占四个字节),运行速度慢, 目前支持它的软件较少。

Unicode2.0: 16位字符集(ucs2),收录有汉字20902个,符号6811个;
优点:适用于国际化环境,可以做为字符的内部表示和存储形式,来实现软件的国际化、本地化;
缺点:目前支持较少,与其他中文字符集不兼容。

使用哪一种字符集,需要根据使用环境而定。不要盲目的使用最大最全的字符集,这样不仅运行效率差,占用多余空间,而且会降低软件的兼容性,因为不是所有运行环境都安装有所有字符集。

如果只处理英文,则可以使用Latin1字符集,目前绝大多数机子上都可以支持。如果只处理简体中文,使用GB2312,如果同时需要支持简繁体中文,使用 GBK;如果确实需要使用偏僻字,再使用GB18030;GB2312/BIG5/GBK/GB18030都只适用于中文环境,如果需要国际化,当然要使用unicode。

有人说,同时存在和使用这么多字符集,会人为的增加软件的开发难度和不兼容性。我也认同这一点,但是,目前多种字符集的存在,尤其是多种中文字符集并存,有其现实的背景和应用,不能简单的要求使用某一个字符集就完事,否则只是不切实际的空想。GBK的编码位利用率高,汉字覆盖面广,支持简繁体同时显示,并且广泛应用于简体中文Windows环境中,已近乎成为事实上的标准,得到了越来越广泛的国际支持,但它不是国家标准。最新的GB18030是典型的学院派标准,要用一个大而全的字符集来替代现有的GB2312、GBK等,却没有考虑到实际应用的可能性。且不说其在一般应用中造成的双倍的存储空间浪费和传输带宽浪费(虽然目前单位存储价格急遽下降,不需要在象过去那样计较,但也不表示我们可以任意挥霍),更重要的是其实现的高度复杂性和编码查找及转换时的低效率,这在系统软件当中是不可容忍的。

其实,任何一种字符集都不可能适用于所有环境,字符集的设计应该根据不同的需要来分别设计,在尽量避免重复功能的字符集的同时,保持字符集之间尽可能的兼容性。更好的中文字符集的实现应该是实现两种国家标准,一种16位字符集,一种32位字符集。16位字符集用于一般性应用,类似于目前的GBK(或者直接把GBK做为标准)。32位字符集向下兼容16位字符集(或直接采用Unicode 3.0),用于文字处理等场合。操作系统和数据库管理系统等系统性软件需要同时支持这两种字符集,而一般的应用软件只需要选择一种适合自己的就行了。

  • unicode 鏄嚑涓瓧鑺?
    绛旓細unicode鏄2涓瓧鑺傘傝繖涓鏍囧噯鐨2瀛楄妭褰㈠紡閫氬父绉颁綔UCS-2銆傜劧鑰岋紝鍙楀埗浜2瀛楄妭鏁伴噺鐨勯檺鍒讹紝UCS-2鍙兘琛ㄧず鏈澶65536涓瓧绗︺Unicode鐨4瀛楄妭褰㈠紡琚О涓篣CS-4鎴朥TF-32锛岃兘澶熷畾涔塙nicode鐨勫叏閮ㄦ墿灞曪紝鏈澶氬彲瀹氫箟100涓囦釜浠ヤ笂鍞竴瀛楃銆2016-06-21棰佸彂鐨刄nicode9锛0鍏辨敹褰128锛237涓瓧銆俇nicode鏄竴绉瀛楃闆锛孶ni...
  • Unicode瀛楃闆
    绛旓細鎴戜滑涓鑸氬父浣跨敤鐨瀛楃闆鏈夛細ASCII ISO-8859-1 GB2312 big5 GBK Unicode2.0锛屽彟澶栬繕鏈変竴绉嶅熀浜32浣嶇殑GB18030瀛楃闆嗘槸鍥藉鏂板嚭鏉ョ殑涓绉嶅瓧绗﹂泦锛屽叾涓轰竴涓眽瀛楄璁′簡4涓瓧鑺傦紝鍥犳鍙互璇存槸鐩墠涓烘锛屽姹夊瓧鏀寔鏃犺鏄畝浣撹繕鏄箒浣撻兘鏄敮鎸佹瘮杈冨ソ鐨勪竴绉嶏紝褰撶劧涓昏鐨勭己鐐瑰氨鏄お鍗犵┖闂达紝涓嶅埄浜庡湪缃戣矾涓婁紶...
  • Unicode鏄粈涔???
    绛旓細Unicode锛堢粺涓鐮併佷竾鍥界爜銆佸崟涓鐮侊級鏄绠楁満绉戝棰嗗煙閲岀殑涓椤逛笟鐣屾爣鍑嗭紝鍖呮嫭瀛楃闆銆佺紪鐮佹柟妗堢瓑銆俇nicode 鏄负浜嗚В鍐充紶缁熺殑瀛楃缂栫爜鏂规鐨勫眬闄愯屼骇鐢熺殑锛屽畠涓烘瘡绉嶈瑷涓殑姣忎釜瀛楃璁惧畾浜嗙粺涓骞朵笖鍞竴鐨勪簩杩涘埗缂栫爜锛屼互婊¤冻璺ㄨ瑷銆佽法骞冲彴杩涜鏂囨湰杞崲銆佸鐞嗙殑瑕佹眰銆1990骞村紑濮嬬爺鍙戯紝1994骞存寮忓叕甯冦俇nicode閫氬父...
  • Unicode 缂栫爜 鑼冨洿
    绛旓細( U+A720 鈥 U+A7FF) 鎷変竵瀛楃鎵╁睍闆 D ( U+A800 鈥 U+A82F) Syloti Nagri 瀛楃 ( U+A840 鈥 U+A87F) 鍏濆反瀛楃 ( U+AC00 鈥 U+D7AF) 璋氭枃闊宠妭瀛楃 ( U+F900 鈥 U+FAFF) 涓棩闊╃浉瀹规眽瀛 ( U+FB00 鈥 U+FB4F) 瀛楁瘝琛ㄨ揪褰㈠紡瀛楃: 鎷変竵鏂囩浉鍏 ( U+FB00 鈥 U+FB4F) 甯屼集鏉ュ瓧姣...
  • unicode瀛楃闆鏄灏戜綅鐨勫瓧绗︾紪鐮
    绛旓細鏈鍒濈殑unicode缂栫爜鏄浐瀹氶暱搴︾殑锛16浣嶏紝涔熷氨鏄2涓や釜瀛楄妭浠h〃涓涓瓧绗︼紝杩欐牱涓鍏卞彲浠ヨ〃绀65536涓瓧绗︺傛樉鐒讹紝杩欐牱瑕佽〃绀哄悇绉嶈瑷涓墍鏈夌殑瀛楃鏄繙杩滀笉澶熺殑銆Unicode4.0瑙勮寖鑰冭檻鍒颁簡杩欑鎯呭喌锛屽畾涔変簡涓缁勯檮鍔瀛楃缂栫爜锛岄檮鍔犲瓧绗︾紪鐮侀噰鐢2涓16浣嶆潵琛ㄧず锛岃繖鏍锋渶澶氬彲浠ュ畾涔1048576涓檮鍔犲瓧绗︼紝鐩墠unicode4.0鍙...
  • 浠涔堟槸USC-2(Unicode)缂栫爜鏍囧噯?
    绛旓細UNICODE鏈夊弻閲嶅惈涔夈傞鍏圲NICODE鏄鍥介檯鏍囧噯ISO/IEC10646缂栫爜鐨勪竴绉嶇О璋擄紙ISO/IEC10646鏄竴涓浗闄呮爣鍑嗐備害绉板ぇ瀛楃闆銆傚畠鏄疘SO浜1993骞撮甯冪殑涓椤归噸瑕佸浗闄呮爣鍑嗐傚叾瀹楁棬鏄叏鐞冩墍鏈夋枃绉嶇粺涓缂栫爜锛夈傚彟澶栧畠鍙堟槸鐢辩編鍥界殑HP銆丮icrosoft銆両BM銆丄pple绛夊ぇ浼佷笟缁勬垚鐨勮仈鐩熼泦鍥㈢殑鍚嶇О銆傛垚绔嬭闆嗗洟鐨勫畻鏃ㄥ氨鏄鎺ㄨ繘澶...
  • 鏂囨湰鏂囨。鐨凙NSI缂栫爜涓Unicode鏈変粈涔堝尯鍒?
    绛旓細(Unicode瀛楃闆鏈夊绉嶇紪鐮佸舰寮) \x0d\x0a渚嬪鈥滆繛閫氣濅袱涓瓧鐨刄nicode鏍囧噯缂栫爜UTF-16 (big endian锛変负锛欴E 8F 1A 90 \x0d\x0a鑰屽叾UTF-8缂栫爜涓猴細E8 BF 9E E9 80 9A\x0d\x0a\x0d\x0an褰撲竴涓蒋浠舵墦寮涓涓枃鏈椂锛屽畠瑕佸仛鐨勭涓浠朵簨鏄喅瀹氳繖涓枃鏈┒绔熸槸浣跨敤鍝瀛楃闆嗙殑鍝缂栫爜...
  • 鏈夊叧浜瀛楃闆鐨勯棶棰,浠涔堟槸Unicode,浠涔堟槸UTF-8
    绛旓細Unicode鏄竴涓紙缂栫爜瀛楃闆.n锛夛紝瀹冨搴旂潃涓涓笓闂ㄤ负Unicode缂栫爜瀛楃闆嗘敹褰曞瓧绗︾殑瀛楀簱琛ㄣ備竴涓猆nicode缂栫爜瀵瑰簲鐫涓涓猆nicode瀛楀簱琛ㄤ腑鐨勫瓧绗︼紝鍙互璇翠竴涓猆nicode缂栫爜灏辨槸涓涓瓧绗﹀湪Unicode瀛楀簱琛ㄤ腑鐨勫簭鍙枫愬湪瀛楀簱琛ㄤ腑鎺掑湪绗嚑涓戙(Unicode缂栫爜.n)鏄竴涓簩杩涘埗鏁般俇nicode涓轰簡鍒拌揪鍏跺寘鍚叏涓栫晫鎵鏈夊瓧绗︾殑...
  • Windows 璁颁簨鏈殑 ANSI銆Unicode銆乁TF-8 杩欎笁绉嶇紪鐮佹ā寮忔湁浠涔堝尯鍒...
    绛旓細UTF-8鍘熸湰鏄洜鍏煎鎬у嚭鑹茶屽箍鍙楁杩庣殑缂栫爜锛屼絾鐢变簬Windows鐨勭壒娈婂鐞嗭紝瀹冨湪瀹炶返涓父涓庨鏈熶笉绗︺傚綋鏂囨湰涓殑鎵鏈夊瓧绗﹂兘灞炰簬ASCII鑼冨洿鏃讹紝璁颁簨鏈繚瀛樼殑ANSI鏂囦欢涓嶢SCII鎴栨棤BOM鐨刄TF-8鏄瓑鏁堢殑銆傜劧鑰岋紝瀵逛簬Unicode瀛楃闆锛屽悓涓涓枃鏈彲浠ョ敤UTF-8銆乁TF-16鎴朥TF-32绛夊绉嶇紪鐮佸舰寮忓瓨鍌ㄥ拰浼犺緭锛岃繖灏卞己璋冧簡...
  • unicode瀛楃闆鏄痷nicode鑱旂洘寮鍙戠殑涓绉嶄粈涔堜綅瀛楃
    绛旓細64浣嶅瓧绗︺unicode瀛楃闆鏄痷nicode鑱旂洘寮鍙戠殑涓绉64浣嶅瓧绗︺倁nicode瀛楃闆嗘槸涓涓粺涓瀛楃闆嗭紝鏁村悎涓栫晫涓婃墍鏈夐渶瑕佺敤鍒扮殑瀛楃锛岃В鍐充笉鍚屽瓧绗﹂泦涔嬮棿鏃犳硶閫氳鐨勯棶棰樸
  • 扩展阅读:unicode在线转码中文 ... unicode在线编码解码 ... unicode字符大全查询 ... unicode下载 ... unicode字符代码大全 ... 汉字转unicode在线 ... unicode字符转换器 ... ascii码转换器 ... unicode编码在线转换 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网