分类器的分类器的准确度评估方法

\u4e3a\u4ec0\u4e48\u8bf4\u8fd1\u90bb\u6cd5\u5206\u7c7b\u5668\u662f\u7ebf\u6027\u5206\u7c7b\u5668

\u6211\u662f\u6a21\u5f0f\u8bc6\u522b\u8001\u5e08 \u738b\u8f89
\u81ea\u5df1\u505a\u7b54 \u4e0d\u7136\u96f6\u5206\u5904\u7406
\u4f60\u662f\u4e00\u73ed\u7684 \u667a**
\u6211\u8bb0\u4f4f\u4f60\u4e86\uff01

\u53c2\u8003\u7b54\u6848:\u5c48\u66f2\u5c4f\u98ce\u7ed5\u8c61\u5e8a\uff0c\u840e\u8564\u7fe0\u5e10\u7f00\u9999\u56ca\u3002\u7389\u53f0\u9f99\u955c\u6d1e\u5f7b\u5149\uff0c

影响一个分类器错误率的因素　　(1)、训练集的记录数量。生成器要利用训练集进行学习，因而训练集越大，分类器也就越可靠。然而，训练集越大，生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。　　(2)、属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合，使得生成器难度增大，需要的时间也更长。有时随机的关系会将生成器引入歧途，结果可能构造出不够准确的分类器（这在技术上被称为过分拟合）。因此，如果我们通过常识可以确认某个属性与目标无关，则将它从训练集中移走。　　(3)、属性中的信息。有时生成器不能从属性中获取足够的信息来正确、低错误率地预测标签（如试图根据某人眼睛的颜色来决定他的收入）。加入其他的属性（如职业、每周工作小时数和年龄），可以降低错误率。　　(4)、待预测记录的分布。如果待预测记录来自不同于训练集中记录的分布，那么错误率有可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器，那么试图用它来对包含许多运动用车辆的记录进行分类可能没多大用途，因为数据属性值的分布可能是有很大差别的。评估方法
有两种方法可以用于对分类器的错误率进行评估，它们都假定待预测记录和训练集取　　自同样的样本分布。　　(1) 保留方法(Holdout)：记录集中的一部分（通常是2/3）作为训练集，保留剩余的部分用作测试集。生成器使用2/3 的数据来构造分类器，然后使用这个分类器来对测试集进行分类，得出的错误率就是评估错误率。虽然这种方法速度快，但由于仅使用2/3 的数据来构造分类器，因此它没有充分利用所有的数据来进行学习。如果使用所有的数据，那么可能构造出更精确的分类器。　　(2) 交叉纠错方法(Cross validation)：数据集被分成k 个没有交叉数据的子集，所有子集的大小大致相同。生成器训练和测试共k 次；每一次，生成器使用去除一个子集的剩余数据作为训练集，然后在被去除的子集上进行测试。把所有得到的错误率的平均值作为评估错误率。交叉纠错法可以被重复多次(t)，对于一个t 次k 分的交叉纠错法，k *t 个分类器被构造并被评估，这意味着交叉纠错法的时间是分类器构造时间的k *t 倍。增加重复的次数意味着运行时间的增长和错误率评估的改善。我们可以对k 的值进行调整，将它减少到3 或5，这样可以缩短运行时间。然而，减小训练集有可能使评估产生更大的偏差。通常Holdout 评估方法被用在最初试验性的场合，或者多于5000 条记录的数据集；交叉纠错法被用于建立最终的分类器，或者很小的数据集。

鍒嗙被鍣ㄧ殑鍒嗙被鍣ㄧ殑鍑嗙‘搴﹁瘎浼版柟娉
绛旓細(1) 淇濈暀鏂规硶(Holdout)锛氳褰曢泦涓殑涓閮ㄥ垎锛堥氬父鏄2/3锛変綔涓鸿缁冮泦锛屼繚鐣欏墿浣欑殑閮ㄥ垎鐢ㄤ綔娴嬭瘯闆嗐傜敓鎴愬櫒浣跨敤2/3 鐨勬暟鎹潵鏋勯鍒嗙被鍣锛岀劧鍚庝娇鐢ㄨ繖涓垎绫诲櫒鏉ュ娴嬭瘯闆嗚繘琛屽垎绫伙紝寰楀嚭鐨勯敊璇巼灏辨槸璇勪及閿欒鐜囥傝櫧鐒惰繖绉嶆柟娉曢熷害蹇紝浣嗙敱浜庝粎浣跨敤2/3 鐨勬暟鎹潵鏋勯犲垎绫诲櫒锛...

銆怉I鍩虹銆鍒嗙被鍣ㄨ瘎浼涓:娣锋穯鐭╅樀銆鍑嗙‘鐜銆佺簿纭巼銆佸彫鍥炵巼銆佺伒鏁忓害...
绛旓細鐏垫晱搴︼紝鎴栫湡姝ｄ緥鐜囷紙TPR锛夛紝琛￠噺鐨勬槸妯″瀷璇嗗埆鍑虹湡姝ｄ緥鐨勮兘鍔涳紝鑰岀壒寮傚害锛屾垨鐪熷弽渚嬬巼锛圱NR锛夛紝鍒欏叧娉ㄦā鍨嬭瘑鍒嚭鐪熷弽渚嬬殑鍑嗙‘鎬銆備緥濡傦紝閿ゅ摜閴村畾涓鸿禎鍝佺殑鐡峰櫒涓紝鏈85%纭疄鏄亣璐э紙TNR=17/3+17锛夛紱鍚屾牱锛岃璇婄巼锛團PR锛夎〃绀哄疄闄呬负璧濆搧鑰岃璇垽涓虹湡鍝佺殑姣斾緥锛岃屾紡璇婄巼锛團NR锛夊垯琛￠噺浜嗙湡鍝佽璇垽涓鸿禎...

濡備綍琛￠噺鍒嗙被鍣ㄧ殑濂藉潖?
绛旓細1銆佸噯纭巼锛圓ccuracy锛夋纭娴嬬殑鏍锋湰鏁板崰鎬绘牱鏈暟鐨勬瘮渚銆2銆佺簿纭巼锛圥recision锛夋纭娴嬩负姝ｄ緥鐨勬牱鏈暟鍗犻娴嬩负姝ｄ緥鐨勬牱鏈暟鐨勬瘮渚嬨3銆佸彫鍥炵巼锛圧ecall锛夋纭娴嬩负姝ｄ緥鐨勬牱鏈暟鍗犲疄闄呬负姝ｄ緥鐨勬牱鏈暟鐨勬瘮渚嬨4銆丗1-score锛氱簿纭巼鍜屽彫鍥炵巼鐨勮皟鍜屽钩鍧囨暟锛屽悓鏃惰冭檻浜嗕簩鑰呯殑琛ㄧ幇銆5銆丷OC鏇茬嚎鍜孉UC鍊糝OC...

kappa浠涔堟剰鎬
绛旓細璇︾粏瑙ｉ噴濡備笅锛氫竴銆並appa绯绘暟鐨勫畾涔 Kappa绯绘暟鏄竴绉嶇敤浜璇勪及鍒嗙被妯″瀷鍑嗙‘搴鐨勭粺璁￠噺銆傚畠琛￠噺鐨勬槸鍒嗙被鍣鎬ц兘涓庣郴缁熼殢鏈虹寽娴嬫ц兘涔嬮棿鐨勫樊寮傘傜畝鍗曟潵璇达紝Kappa绯绘暟鑳藉鍙嶆槧鍒嗙被缁撴灉涓庣湡瀹炴儏鍐典箣闂寸殑鍚诲悎绋嬪害銆備簩銆並appa绯绘暟鐨勮绠鏂瑰紡 Kappa绯绘暟鐨勮绠楀熀浜庢贩娣嗙煩闃点傞氳繃姣旇緝鍒嗙被妯″瀷鐨勯娴嬬粨鏋滃拰瀹為檯缁撴灉锛岃绠楀緱鍑...

鍒嗙被鍣娴嬭瘯鐨勪綔鐢ㄦ槸
绛旓細璇勪及鍒嗙被鍣ㄧ殑鍑嗙‘鎬э紝瀵规瘮涓嶅悓鍒嗙被鍣ㄧ殑鎬ц兘銆1銆佽瘎浼板垎绫诲櫒鐨勫噯纭э細鍒嗙被鍣ㄦ祴璇曞彲浠ラ氳繃璁＄畻鍒嗙被鍣ㄥ湪娴嬭瘯鏁版嵁闆嗕笂鐨勫噯纭巼銆佸彫鍥炵巼銆丗1鍊肩瓑鎸囨爣鏉ヨ瘎浼板垎绫诲櫒鐨勫噯纭銆2銆佸姣斾笉鍚屽垎绫诲櫒鐨勬ц兘锛氶氳繃瀵逛笉鍚屽垎绫诲櫒鍦ㄧ浉鍚屾祴璇曟暟鎹泦涓婄殑鎬ц兘杩涜瀵规瘮锛屽彲浠ョ‘瀹氬摢涓垎绫诲櫒鏇撮傚悎搴旂敤鍦烘櫙銆

涓鏂囧帢娓呮ā鍨璇勪及涔鍑嗙‘鐜銆佺簿纭巼銆佹煡鍑嗙巼銆佹煡鍏ㄧ巼銆佺湡闃虫х巼銆佸亣闃 ...
绛旓細ROC鏇茬嚎涓婄殑姣忎釜鐐癸紝妯潗鏍囨槸鍋囬槼鎬х巼锛岀旱鍧愭爣鏄湡闃虫х巼锛屽氨鍍忓鑸浘锛屽府浣犳壘鍒板湪绮惧害鍜屽彫鍥炵巼涔嬮棿鐨勬渶浣冲钩琛＄偣銆侹S鏇茬嚎锛圞olmogorov-Smirnov锛夊垯鏄彟涓绉嶈　閲鍒嗙被鍣鎬ц兘鐨勬柟寮锛岀壒鍒叧娉ㄦ暟鎹垎甯冪殑鐩镐技搴︺侾RC鏇茬嚎锛圥recision-Recall Curve锛夊垯鑱氱劍鍦ㄧ簿纭害涓庡彫鍥炵巼鐨勬潈琛′笂锛屽睍绀轰簡涓嶅悓闃堝间笅妯″瀷鐨勮〃鐜...

甯哥敤鐨勬暟鎹寲鎺樻ā鍨璇勪及鎶鏈湁鍝簺,鑷冲皯鍐欏嚭3绉,鐢ㄨ嚜宸辩殑璇█璇︾粏闃愯堪...
绛旓細璇勪及鍒嗙被鍣ㄧ殑鍑嗙‘鐜锛屾湁浠ヤ笅甯哥敤鏂规硶锛氫繚鎸併佷氦鍙夐獙璇併佽嚜鍔╂硶銆備繚鎸侊細鎶婄粰瀹氭暟鎹殢鏈哄垎涓轰袱缁勶細璁粌闆嗗拰妫楠岄泦锛屽叾涓墠鑰呭崰涓夊垎涔嬩簩銆傜敤璁粌闆嗗鍑烘ā鍨嬶紝鍏跺噯纭巼鐢ㄦ楠岄泦浼拌銆備氦鍙夐獙璇侊細K鎶樹氦鍙夐獙璇併傛妸鍒濆鏁版嵁鍒嗘垚K涓暟閲忓ぇ鑷寸浉绛夌殑涓嶇浉浜ょ殑瀛愰泦銆傛瘡娆￠変竴涓瓙闆嗗仛妫楠岄泦锛屽叾浠栫殑鍋氳缁冮泦銆傚姝ゅ仛K...

绮惧害璇勫畾涓鐨勫噯纭巼(Precision)鍜屽彫鍥炵巼(Recall)
绛旓細鍦ㄦā寮忚瘑鍒鍩燂紝鍑嗙‘鐜锛圥recision锛夊拰鍙洖鐜囷紙Recall锛夋槸琛￠噺鍒嗙被鍣ㄦц兘鐨勫叧閿寚鏍囥傚畠浠垎鍒唬琛ㄤ簡鍒嗙被鍣ㄦ纭瘑鍒鏍锋湰鐨勮兘鍔涗互鍙婇仐婕忔鏍锋湰鐨勭▼搴︺傛澶栵紝F1鍒嗘暟锛團1-Score锛夋槸杩欎袱涓寚鏍囩殑璋冨拰骞冲潎鏁帮紝鐢ㄤ簬缁煎悎璇勪及鍒嗙被鍣ㄧ殑鎬ц兘銆傚噯纭巼锛圥recision锛夊畾涔変负锛歕[ \text{Precision} = \frac{\text{True...

鍔ㄦ佽瘎浠锋寚鏍囨湁鍝簺
绛旓細鍔ㄦ佽瘎浠锋寚鏍囦富瑕佸寘鎷細ROC鏇茬嚎銆丄UC鍊笺鍑嗙‘鐜-鍙洖鐜囨洸绾夸互鍙奆1鍒嗘暟銆1. ROC鏇茬嚎涓嶢UC鍊 ROC鏇茬嚎锛屽嵆鍙楄瘯鑰呭伐浣滅壒寰佹洸绾匡紝鐢ㄤ簬灞曠ず浜屽垎绫婚棶棰樹腑鐪熸绫荤巼锛圱PR锛変笌鍋囨绫荤巼锛團PR锛変箣闂寸殑鍏崇郴銆傞氳繃璋冩暣鍒嗙被鍣ㄧ殑闃堝硷紝鍙互寰楀埌涓嶅悓鐨勭偣锛岃繛鎺ヨ繖浜涚偣鍗冲舰鎴怰OC鏇茬嚎銆傜悊鎯虫儏鍐典笅锛孯OC鏇茬嚎瓒婇潬杩戝乏涓婅锛...

鍒嗙被鍣妯″瀷璇勪及鎸囨爣涔嬫贩娣嗙煩闃(浜屽垎绫/澶氬垎绫)
绛旓細锛1锛夋ā鍨嬫暣浣撴晥鏋滐細鍑嗙‘鐜锛圓ccuracy锛夊噯纭巼Accuracy 灏辨槸鎵鏈夐娴嬫纭殑鎵鏈夋牱鏈櫎浠ユ绘牱鏈紝閫氬父鏉ヨ瓒婃帴杩1瓒婂ソ銆傘愪笁鍒嗙被涓/澶氬垎绫讳腑銆 Accuracy= 锛2锛夌簿纭害/鏌ュ噯鐜 Precision 绮剧‘搴recision 锛屽張鍙煡鍑嗙巼锛岃〃绀烘墍鏈夎鎴戜滑棰勬祴涓烘槸姝ｇ被鐨勬牱鏈腑锛岀湡姝ｇ殑姝ｇ被鎵鍗犵殑姣斾緥銆傚垎姣嶆槸鍒楁诲拰銆傘愪笁鍒嗙被...

扩展阅读：作业治疗常用评估量表 ... 指南证据推荐级别1a 1b ... 数据分析柱状图 ... 工具的一般分类 ... 社会工作评估五种类型 ... 一对一法分类器 ... 计量器具分类评估表 ... 数据分析的四个步骤 ... 评估标准划分为四个方面 ...

车视网

分类器的分类器的准确度评估方法