全唐诗语料库是json的格式,如何用Python将语料库中的简体字和繁体字分割成两个不同的json文件或TXT文件
你好,python3的话,我们可以通过 try: 编码为 big5hkscs,不异常就说明是 繁体字。下面是一个例子代码:
line = '我们今天去吃饭了'
l = '我们今天去吃饭了'
try:
print(line.encode('big5hkscs'))
except:
print ("New style ")
绛旓細line = '鎴戜滑浠婂ぉ鍘诲悆楗簡' l = '鎴戜滑浠婂ぉ鍘诲悆楗簡' try: print(line.encode('big5hkscs')) except: print ("New style ")
绛旓細銆婅█璇氦闄呬腑鐨勬у埆宸紓鐮旂┒銆,闄堝┓濠 銆婂叏娓呰瘝銆嬫槸鍘熷浗鍔¢櫌鍙ょ睄鏁寸悊鍑虹増瑙勫垝灏忕粍(鐜板浗瀹跺彜绫嶆暣鐞嗗嚭鐗堣鍒掑皬缁)涓嬭揪鐨勫浗瀹剁骇澶у瀷閲嶇偣鍙ょ睄鏁寸悊椤圭洰銆傞」鐩姹傚弬鐓у墠浜虹紪绾傘鍏ㄥ攼璇銆嬨併婂叏瀹嬭瘝銆嬬殑鍋氭硶,灏嗘竻浠300骞寸殑璇嶄綔鎼滅綏榻愬,鎸変竴瀹氫綋渚嬫眹闆嗙紪绾,鏁寸悊鏍$偣,鐒跺悗鍑虹増鎴愪功,鎴愪负鏈夋竻涓浠h瘝鐨勫ぇ鍨嬫婚泦,涓哄鏈晫鐮旂┒杩...