怎样识别中文字符是英文字符还是汉字?

1、可以通过识别字符编码的长短实现。

由于英文字符只占一个位,而中文字符占两位,但是在国际字符编码标准unicode中,所有的文字都占两位,所以unicode中所有的英文数字第一个byte的值绝对是0x00,只要两个字节两个字节的读取,通过判断第一个字符是不是0x00就可以判断中文字符和英文字符。

但是请注意,unicode是有大端和小端编码之分的,两者字符识别的顺序刚好相反,所以请注意,使用小端编码的话0x00就会在前面,一般windows中都是使用的小段编码。还有在文本文件中,unicode是有dom头的,注意不要把文件头读进去。

2、根据每个字节转化为数字判断。

大家知道西文字符主要是指ASCII码,它用一个字节表示。且这个字符转换成数字之后,该数字是大于0的,而汉字是两个字节的,第一个字节的转化为数字之后应该是小于0的,因此可以根据每个字节转化为数字之后是否小于0,判断它是否是汉字。

扩展资料:

ASCII码于1961年提出,用于在不同计算机硬件和软件系统中实现数据传输标准化,在大多数的小型机和全部的个人计算机都使用此码。ASCII码划分为两个集合:128个字符的标准ASCII码和附加的128个字符的扩充和ASCII码。比较EBCDIC。其中95个字符可以显示。另外33个不可以显示。 标准ASCII码为7位,扩充为8位。

目前使用最广泛的西文字符集及其编码是 ASCII 字符集和 ASCII 码( ASCII 是 American Standard Code for Information Interchange 的缩写),它同时也被国际标准化组织( International Organization for Standardization, ISO )批准为国际标准。

基本的 ASCII 字符集共有 128 个字符,其中有 96 个可打印字符,包括常用的字母、数字、标点符号等,另外还有 32 个控制字符。标准 ASCII 码使用 7 个二进位对字符进行编码,对应的 ISO 标准为 ISO646 标准。

参考资料来源:百度百科-字符编码






  • php 濡備綍鍒ゆ柇瀛楃鏄眽瀛楄繕鏄嫳鏂
    绛旓細甯歌鐨勫氨鏄敤strlen()鍜宮b_strlen()鍑芥暟 strlen($str); 涓枃utf8鍗3涓瀛楃 mb_strlen($str,'utf8'); 涓枃utf8鍗1涓瓧绗 鍙互鏍规嵁strlen()鍜宮b_strlen()杩斿洖缁撴灉锛屼袱鑰呮瘮杈鍒ゆ柇鏄眽瀛銆鑻辨枃杩樻槸涓嫳娣峰悎 strlen() 绛変簬 mb_strlen() 鍏ㄨ嫳 strlen() 瀵 mb_strlen() 鍙栦綑涓0 鍏ㄦ眽 ...
  • 濡備綍鍒ゆ柇java涓璫har鏄涓枃瀛楃杩樻槸鑻辨枃瀛楃
    绛旓細Java鏂囦欢娴佹湁瀛楃娴佸拰瀛楄妭娴佷袱绉嶏紝鍒嗗埆瀵瑰簲char鍜宐yte绫诲瀷 濡傛灉鏄瓧绗︽祦鐨剅ead锛屼竴娆¤鍙栦袱涓瓧鑺傦紝涔熷氨鏄竴涓猚har锛岄渶瑕佹敞鎰忕殑鏄疛ava閲囩敤Unicode缂栫爜锛屾棤璁涓枃杩樻槸瑗挎枃鍙鏄痗har绫诲瀷閮芥槸2瀛楄妭銆鑻辨枃瀛楃鍦║nicode浠sc鐮佸瓨鍌紝楂樹綅搴旇鏄0.浣跨敤杩欑鏂规硶闇娉ㄦ剰鑻ュ瓧鑺備负濂囨暟鍒欏彲鑳藉嚭閿欍傚鏋滄槸瀛楄妭娴侊紝涓娆...
  • C#鍒ゆ柇瀛楃鏄嫳鏂囪繕鏄腑鏂
    绛旓細姣忎竴涓瀛楃閮芥湁涓涓搴旂殑ascall鐮侊紝Pascal涓湁涓涓嚱鏁板氨鏄妸瀛楃杞寲鎴愭暣鏁帮紙瀵瑰簲鐨勭埍ascall鐮侊級锛孋#閲岄潰搴旇涔熸湁锛岃繖鏍风殑璇濆彧瑕佸垽鏂搴旂殑ascall鐮佺殑鑼冨洿灏卞彲浠鍒ゆ柇鏄嫳鏂囪繕鏄腑鏂锛宎scall鐮佷腑锛65锝90鍙蜂负26涓ぇ鍐欒嫳鏂囧瓧姣嶏紝97锝122鍙蜂负26涓皬鍐欒嫳鏂囧瓧姣嶃
  • 濡備綍鍒ゆ柇杈撳叆鐨瀛楃鏄腑鑻辨枃
    绛旓細ascill瀛楁瘝琛細a-z锛97-122A-Z锛65-900-9锛48-57浠g爜濡備笅锛氬彲浠ュ惊鐜鍒ゆ柇鏄瀛楁瘝鐨刟scil,杈撳叆0閫鍑 #include int main() { char hello; printf("璇疯緭鍏瀛楃,杈撳叆闆堕鍑篭n"); while(1) {scanf("%c",&hello); if((hello>=65)&&(hello=97)&&(hello<=122))) ...
  • 鎵瑰鐞 濡備綍鍒ゆ柇杈撳叆鐨瀛楃鏄腑鏂囨眽瀛銆鑻辨枃瀛楃
    绛旓細涓嶇浣犵敤浠涔堣瑷锛屽師鐞嗛兘鏄竴鏍风殑銆備綘鐪嬶紝涓枃瀛楃涓嶅湪浜巃scii code锛堜笉鐭ラ亾杩欐牱鍐欏涓嶅锛屽弽姝eぇ閮芥暟楂樼骇璇█閲岄兘鏈夛級锛屾墍浠ョ敤杩欎釜鍘熺悊缂栫▼搴忓氨琛屼簡锛岀敤閫昏緫婕旂畻銆傝繖鏍峰氨ok銆傚姞娌癸紝甯屾湜鎴戠殑鍥炵瓟瀵逛綘鏈夊府鍔┿
  • js濡備綍鍒ゆ柇瀛楃鏄腑鏂,鑻辨枃,鏁板瓧杩樻槸瀛楃
    绛旓細閬嶅巻浣犺鍒ゆ柇鐨瀛楃涓str,鐢╯tr.charCodeAt(涓嬫爣),鑾峰緱姣忎釜瀛楃鐨刟sc鐮侊紝鐒跺悗瀵圭収asc鐮佽〃鏉ュ垽鏂叾鎵灞炵被鍨嬬殑銆 鎴栬呯敤姝e垯锛/^[a-zA-Z]$/.test()鎷彿閲屾槸琚娴嬬殑瀛楃涓诧紝杩欎釜姝e垯妫娴嬫槸鍚﹂兘涓鸿嫳鏂 /^[0-9]$/妫娴嬫槸鍚︿负鏁板瓧
  • 鍖哄埆杈撳叆鐨瀛楃鏄嫳鏂鐨杩樻槸涓枃 鎴栬呮槸 鐗规畩瀛楃
    绛旓細鍖哄埆涓枃鍜鑻辨枃瀛楃鐨勬柟娉曪細String str = "鎴戠埍浣,xr"; char[] array = str.toCharArray(); int chineseCount = 0; int englishCount = 0; for (int i = 0; i < array.length; i++) { if((char)(byte)array[i]!=array[i]){ chineseCount++; }else{ englishCount++; } }[/...
  • 鎬庝箞鐪嬫嫭鍙锋槸涓枃杩樻槸鑻辨枃
    绛旓細鎷彿鐨勫舰鐘跺拰瀛楃绫诲瀷銆1銆佹嫭鍙风殑褰㈢姸锛涓枃鐨勬嫭鍙锋甯镐负鍦嗘嫭鍙封滐紙锛夆濓紝鑰鑻辨枃鐨勬嫭鍙峰垯涓烘柟鎷彿鈥淸]鈥濇垨鑰呭皬鎷彿鈥滐紙锛夆濄2銆佸瓧绗︾被鍨嬶細鍦ㄨ绠楁満缂栫▼涓紝涓枃鍜岃嫳鏂囩殑鎷彿涔熸湁鏄庢樉鐨勫尯鍒紝涓枃鐨勬嫭鍙蜂娇鐢ㄥ叏瑙掑瓧绗︼紝鑰岃嫳鏂囩殑鎷彿浣跨敤鍗婅瀛楃銆
  • 鍗婅瀛楃鏄嫳鏂囪繕鏄腑鏂
    绛旓細鏄嫳鏂銆傚崐瑙瀛楃鏄鎸囦竴瀛楃鍗犵敤涓涓爣鍑嗙殑瀛楃浣嶇疆锛岄氬父鐨勮嫳鏂囧瓧姣嶃佹暟瀛楅敭銆佺鍙烽敭閮芥槸鍗婅鐨勶紝鍗婅鐨勬樉绀哄唴鐮侀兘鏄竴涓瓧鑺傘傚湪绯荤粺鍐呴儴锛屼互涓婁笁绉嶅瓧绗︽槸浣滀负鍩烘湰浠g爜澶勭悊鐨勶紝鎵浠ョ敤鎴疯緭鍏ュ懡浠ゅ拰鍙傛暟鏃朵竴鑸兘浣跨敤鍗婅銆傚崐瑙掓ā寮忥細杈撳叆涓涓瓧绗﹀崰鐢1涓瓧绗︺傚叏瑙掓ā寮忚緭鍑虹殑瀛楃鍜屽崐瑙掍笉鍚岋紝浣嗘槸姹夊瓧鐨勮瘽2...
  • 鎬庢牱妫娴嬨佷慨鏀鑻辨枃涓殑涓枃瀛楃?
    绛旓細涓嶇煡閬撹繖浜瀛楃鏄庝箞鏍鐨勶紝濡傛灉鍙湁鑻辨枃璺涓枃锛屽垯鍙互鐢╓PS涓殑鏌ユ壘鍔熻兘锛屽皢涓枃鎵惧嚭鏉ワ紝骞舵浛鎹㈡垚闇瑕佺殑銆傚鍥炬墍绀恒
  • 扩展阅读:标点符号大全100个 ... 中英文字符怎么写 ... 特殊中文字符大全 ... 提取左边第5-7个字符 ... メ丶符号用键盘怎么打 ... 特殊中文字符怎么打 ... 苹果手机特殊字符大全 ... 英语符号一览表 ... 中文字符编码过程 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网