为何随机森林的机器学习统计模型预测法官投票准确率胜过专家？机器学习训练集与测试集评分都很好，为什么实际应用模型就特别烂...

python \u673a\u5668\u5b66\u4e60\u968f\u673a\u68ee\u6797\u600e\u4e48\u5b58\u8d77\u6765\u7528

\u4f60\u8bf4\u7684\u95ee\u9898\u53eb\u6a21\u578b\u6301\u4e45\u5316\uff0c\u5c31\u662f\u628a\u5b66\u4e60\u597d\u7684\u6a21\u578b\u4fdd\u5b58\u8d77\u6765\uff0c\u4ee5\u540e\u53ea\u8981\u8c03\u7528\u8fd9\u4e2a\u6587\u4ef6\u5c31\u53ef\u4ee5\u4e86\u3002
\u6bcf\u4e2a\u6846\u67b6\u90fd\u5e94\u8be5\u6709\u6a21\u578b\u6301\u4e45\u5316\u51fd\u6570\uff0c\u4ee5sklearn\u4e3a\u4f8b\uff1a
from sklearn.externals import joblib
joblib.dump(clf, "train_model.m") \uff03\u5b58\u50a8
clf = joblib.load("train_model.m") \uff03\u8c03\u7528

\u5982\u679c\u4ece\u5b66\u4e60\u7684\u89d2\u5ea6\u770b\uff0c\u7b97\u6cd5\u6700\u91cd\u8981\uff0c\u81f3\u5c11\u627e\u5de5\u4f5c\u65f6\u7b97\u6cd5\u662f\u5fc5\u8003\u7684\uff1b\u4ece\u89e3\u51b3\u5b9e\u9645\u95ee\u9898\u7684\u89d2\u5ea6\u770b\uff0c\u61c2\u5f97\u5982\u4f55\u5efa\u6a21\u548c\u6c42\u89e3\u6a21\u578b\u662f\u6bd4\u8f83\u91cd\u8981\u7684\uff1b\u4f46\u662f\u5982\u679c\u4ece\u6323\u94b1\u7684\u89d2\u5ea6\u770b\uff0c\u8c01\u5982\u679c\u624b\u91cc\u6709\u522b\u4eba\u6ca1\u6709\u7684\u6570\u636e\uff0c\u90a3\u624d\u662f\u5927\u7237\u3002

因为随机森林的机器学习统计模型进行了大量的数据分析，该模型先学习了1816年到2015年最高法院案例特征与裁决结果之间的关联，然后按年份研究每个案例的特征并预测裁决结果，最后被“投喂”关于该年份裁决结果实际信息的算法升级了预测策略，并继续进行下一年的预测。

用计算机算法预测法官行为并不稀奇。2011年，西班牙学者在一项研究中，使用1953年到2004年任意8名法官的投票，来预测同一案件中第9名法官的投票，准确率为83%；2004年，美国学者使用1994年以来一直在法院工作的9名法官的判决，来预测2002年案件的判决结果，准确率为75%。

而伊利诺伊大学理工学院法学教授丹尼尔·卡茨的团队利用最高法院数据库，为每个投票标注了16个特征，包括法官任期、诉讼发起法庭、口头辩论是否被听到等，创建了最先进的算法。对1816年到2015年美国最高法院的判决进行预测，准确率高于70%，较知识渊博的法律专家（预测准确率为66%）更胜一筹。结果显示，对于28000项判决结果及24万张法官投票，新模型算法预测的正确率分别为70.2%和71.9%。相关研究文章发表在《公共科学图书馆·综合》（PLOS ONE）上。

浠0寮濮鏈哄櫒瀛︿範-闅忔満妫灄鍜孏BDT
绛旓細鍦鏈哄櫒瀛︿範鐨勪笘鐣屼腑锛屼袱绉嶅己澶х殑绠楁硶鈥斺旈殢鏈烘．鏋楀拰GBDT锛堟搴︽彁鍗囧喅绛栨爲锛夊悇鍏风壒鑹层傞殢鏈烘．鏋楋紝浣滀负闆嗘垚鍒嗙被鍣紝閫氳繃闅忔満鏋勫缓澶氭５鍐崇瓥鏍戝苟浠ユ姇绁ㄦ垨骞冲潎鐨勬柟寮忓喅瀹氭渶缁堢粨鏋溿傚叾闅忔満鎬ц璁℃棬鍦ㄥ鍔妯″瀷澶氭牱鎬э紝鎻愰珮棰勬祴鎬ц兘銆傜劧鑰岋紝闅忔満妫灄鐨灞闄愬湪浜庡畠渚濊禆浜庡崟妫垫爲鐨勫鏍锋э紝鍙兘浼氱壓鐗查儴鍒嗛娴嬬簿搴︺傜浉姣斾箣...

闅忔満妫灄鏄敤鏉ュ共鍢涚殑
绛旓細闅忔満妫灄鏈川涓婂睘浜鏈哄櫒瀛︿範鐨勪竴澶у垎鏀斺旈泦鎴愬涔狅紙Ensemble Learning锛夛紝鏄皢璁稿妫靛喅绛栨爲锛圖ecision Tree锛夋暣鍚堟垚妫灄骞剁敤鏉ラ娴嬫渶缁堢粨鏋滅殑鏂规硶銆傞殢鏈烘．鏋楅【鍚嶆濅箟锛屾槸鐢ㄩ殢鏈虹殑鏂瑰紡寤虹珛涓涓．鏋楋紝妫灄閲岄潰鏈夊緢澶氱殑鍐崇瓥鏍戠粍鎴愶紝闅忔満妫灄鐨姣忎竴妫靛喅绛栨爲涔嬮棿鏄病鏈夊叧鑱旂殑銆傚湪寰楀埌妫灄涔嬪悗锛屽綋鏈変竴涓柊鐨勮緭鍏...

浠庨浂寮濮鐨勬満鍣ㄥ涔瀹炵敤鎸囧崡(涓):闆嗘垚瀛︿範鍜闅忔満妫灄
绛旓細闆嗘垚瀛︿範锛屽氨鍍忛泦鍚堢兢浣撴櫤鎱э紝閫氳繃鏁村悎澶氫釜棰勬祴鍣ㄧ殑缁撴灉锛屾湁鏃惰兘瓒呰秺鍗曚釜浼樼妯″瀷銆傚畠鍖呭惈澶氱鏂规硶锛屽鎶曠エ鍒嗙被銆丅agging銆丳asting鍜闅忔満妫灄绛夈傜‖鎶曠エ鍒嗙被鏄氳繃澶氫釜鍒嗙被鍣ㄧ殑澶氭暟鍐冲畾锛屽嵆浣垮急鍒嗙被鍣ㄤ篃鑳藉湪澶ч噺鏁伴噺涓嬫彁鍗囨暣浣撹〃鐜般傝岃蒋鎶曠エ锛岄氳繃姒傜巼鍔犳潈锛岄氬父鏁堟灉鏇翠紭锛屼絾鍙兘闇瑕侀澶栫殑鍙傛暟璋冩暣銆傚SVC鍙...

浠0寮濮鏈哄櫒瀛︿範-闅忔満妫灄鍜孏BDT
绛旓細鍦鏈哄櫒瀛︿範鐨勪笘鐣岄噷锛屼袱绉嶅己澶х殑宸ュ叿闅忔満妫灄鍜孏BDT锛堟搴︽彁鍗囧喅绛栨爲锛夊洜鍏剁嫭鐗圭殑鎬ц川鍜屽簲鐢ㄥ箍娉涙у鍙楃灘鐩傞殢鏈烘．鏋楋紝閫氳繃闅忔満鏋勫缓澶氫釜鍐崇瓥鏍戝苟鍙栧叾骞冲潎鎴栧鏁版姇绁ㄦ潵鍐冲畾缁撴灉锛屽叾闅忔満鎬ц璁℃棬鍦ㄥ寮妯″瀷鐨勫鏍锋э紝鎻愰珮棰勬祴鍑嗙‘鎬с傜劧鑰岋紝瀹冪殑浼樼偣涓昏浣撶幇鍦ㄦ槗浜庣悊瑙ｅ拰澶勭悊锛屼絾鍙兘鍦ㄥ鐞嗕笉骞宠　鏁版嵁鏃舵ц兘鍙楅檺...

鏈哄櫒瀛︿範鍜缁熻妯″瀷瀛樺湪鐨勫樊寮傛槸浠涔?
绛旓細鏈哄櫒瀛︿範搴旂敤骞挎硾銆傛満鍣ㄥ涔犲伐鍏峰彲瀛︿範鏁颁互浜胯鐨勮娴嬫牱鏈紝棰勬祴鍜屽涔犲悓姝ヨ繘琛屻備竴浜涚畻娉曞闅忔満妫灄鍜屾搴﹀姪鎺ㄥ湪澶勭悊澶ф暟鎹椂閫熷害寰堝揩銆傛満鍣ㄥ涔犲鐞嗘暟鎹殑骞垮害鍜屾繁搴﹀緢澶с備絾缁熻妯″瀷涓鑸簲鐢ㄥ湪杈冨皬鐨勬暟鎹噺鍜岃緝绐勭殑鏁版嵁灞炴т笂銆傚湪杩欑瘒鏂囩珷涓垜浠粰澶у浠嬬粛浜嗗叧浜庢満鍣ㄥ涔犲拰缁熻妯″瀷鐨勫叿浣撳尯鍒殑鍐呭锛屽叿浣...

闅忔満妫灄鍩轰簬浠涔堢畻娉
绛旓細闅忔満妫灄鍦ㄥ垎绫汇佸洖褰掑拰鐗瑰緛閫夋嫨绛夐鍩熼兘鏈夊箍娉涚殑搴旂敤銆傚熀浜庢爲鍒嗙被鍣ㄧ殑闆嗘垚绠楁硶锛圗nsemble Learning锛夛紝鍏跺寘鍚簡2绉嶅崄鍒嗘湁鏁堝湴鏈哄櫒瀛︿範鎶鏈細Bagging鍜岄殢鏈哄彉閲忛夋嫨锛岄殢鏈烘．鏋楀畠灞炰簬Bagging绫诲瀷锛岄氳繃缁勫悎澶氫釜寮卞垎绫诲櫒锛屾渶缁堢粨鏋滈氳繃鎶曠エ鎴栧彇鍧囧硷紝浣垮緱鏁翠綋妯″瀷鐨勭粨鏋滃叿鏈夎緝楂樼殑绮剧‘搴﹀拰娉涘寲鎬ц兘銆傚叾鍙互鍙栧緱涓嶉敊...

2020-01-15 闅忔満妫灄-鍘熺悊鍙婂浣曠敤R缁樺浘
绛旓細鐒跺悗褰㈡垚浜嗕竴涓闅忔満妫灄鍙互鏍规嵁宸叉湁鐨勮繖鍫嗘暟鎹鏌愪釜鐜拌薄鎴栨煇涓柧鐥呯殑杩涘睍鍋氫竴涓鍚庣殑鎺ㄦ祴锛岄氬父鎯呭喌涓嬮娴嬬簿搴﹁繕鏄洰绮惧噯鐨勩杩欎笉灏辨槸璧嬩簣鏈哄櫒浠ユ濇兂鐨勮繃绋嬪悧锛屼及璁℃繁搴瀛︿範灏辨槸杩欎箞鏉ョ殑銆傞珮绾э紒浠ヤ笂鏄垜鑴戣ˉ鐨勶紝鍏蜂綋杩囩▼杩樿鐪嬪墠闈㈢殑鍙傝冭祫鏂欍傛瀯寤轰竴涓喅绛栨爲鏄緢绠鍗曠殑锛屽垎涓3姝ワ細鍐崇瓥鏍...

闅忔満妫灄妯″瀷鍙互涓庝粈涔堝苟鍒
绛旓細澶氭暟琛ㄥ喅銆闅忔満妫灄鏄竴绉嶆瘮杈冩柊鐨勬満鍣ㄥ涔犳ā鍨锛屽睘浜庨泦鎴愬涔犳柟娉曪紝鍜屽鏁拌〃鍐崇殑鍘熺悊鏄竴鏍风殑锛屽彲浠ュ苟鍒楋紝閮芥槸閽堝浜庝紬澶氱殑瑕佺偣銆

鍒嗙被绠楁硶 - 闅忔満妫灄
绛旓細浠庡悕瀛椾腑鍙互鐪嬪嚭锛闅忔満妫灄鏄敤闅忔満鐨勬柟寮忔瀯寤虹殑涓涓．鏋楋紝鑰岃繖涓．鏋楁槸鐢卞緢澶氱殑鐩镐簰涓嶅叧鑱旂殑鍐崇瓥鏍戠粍鎴愩傚疄鏃朵笂闅忔満妫灄浠庢湰璐ㄤ笂灞炰簬鏈哄櫒瀛︿範鐨勪竴涓緢閲嶈鐨勫垎鏀彨鍋氶泦鎴愬涔犮傞泦鎴愬涔犻氳繃寤虹珛鍑犱釜妯″瀷缁勫悎鐨勬潵瑙ｅ喅鍗曚竴棰勬祴闂銆傚畠鐨勫伐浣滃師鐞嗘槸鐢熸垚澶氫釜鍒嗙被鍣/妯″瀷锛屽悇鑷嫭绔嬪湴瀛︿範鍜屼綔鍑洪娴嬨傝繖浜涢娴...

闅忔満妫灄鍙兘鍋氫簩鍒嗙被鍚
绛旓細闅忔満妫灄鏄鏈哄櫒瀛︿範妯″瀷涓敤浜庡垎绫诲拰鍥炲綊鐨勬渶鎴愬姛鐨勬ā鍨涔嬩竴銆傞氳繃缁勫悎澶ч噺鐨勫喅绛栨爲鏉ラ檷浣庤繃鎷熷悎鐨勯闄┿備笌鍐崇瓥鏍戜竴鏍凤紝闅忔満妫灄澶勭悊鍒嗙被鐗瑰緛锛屾墿灞曞埌澶氱被鍒嗙被璁剧疆锛屼笉闇瑕佺壒寰佺缉鏀撅紝骞朵笖鑳藉鎹曡幏闈炵嚎鎬у拰鐗瑰緛浜や簰銆傞殢鏈烘．鏋楀垎鍒缁冧竴绯诲垪鐨勫喅绛栨爲锛屾墍浠ヨ缁冭繃绋嬫槸骞惰鐨勩傚洜绠楁硶涓姞鍏ラ殢鏈鸿繃绋嬶紝鎵浠ユ瘡涓喅绛...

车视网

为何随机森林的机器学习统计模型预测法官投票准确率胜过专家？ 机器学习训练集与测试集评分都很好，为什么实际应用模型就特别烂...

为何随机森林的机器学习统计模型预测法官投票准确率胜过专家？机器学习训练集与测试集评分都很好，为什么实际应用模型就特别烂...