数据挖掘课程，有关信息增益的代替指标有哪些，并找出相关英文论文，我只找到了gini index，帮帮我

\u8dea\u6c42\u82f1\u6587\u6570\u636e\u6316\u6398\u8bba\u6587

\u4e24\u7bc7\u90fd\u4e0b\u8f7d\u5230\u4e86\uff0c\u600e\u4e48\u7ed9\u4f60

\u8fd9\u79cd\u8d44\u6e90\u8fd8\u662f\u5728\u767e\u5ea6\u6216GOOGLE\u4e0a\u641c\u4e00\u4e0b\uff0c\u5982\u679c\u66fe\u7ecf\u6709\u4eba\u5728\u7f51\u4e0a\u53d1\u5e03\uff0c\u6216\u6709\u7f51\u7ad9\u4e0b\u8f7d\uff0c\u4e00\u822c\u90fd\u4f1a\u88ab\u641c\u7d22\u5f15\u64ce\u6536\u5f55\uff1b\u5982\u679c\u641c\u4e0d\u5230\uff0c\u4f60\u53ef\u4ee5\u627e\u4e00\u4e0b\u76f8\u5173\u7684\u8bba\u575b\uff0c\u6700\u597d\u662f\u90a3\u79cd\u4eba\u6c14\u6bd4\u8f83\u9ad8\u7684\u8bba\u575b\uff0c\u6ce8\u518c\u4f1a\u5458\uff0c\u53d1\u5e16\u6c42\u52a9\uff0c\u4f1a\u6709\u9ad8\u624b\u5e2e\u4f60\u7684\u3002

国际权威学术组织的数据挖掘（ICDM）12 2006 IEEE国际会议上入选十大经典领域的数据挖掘算法：C4.5，K均值，SVM，先验，EM的PageRank，AdaBoost的朴素贝叶斯，KNN，和CART
不只是所选算法10，事实上，参与的18种算法的选择，其实，只是为了拿出一个可以称得上是经典算法的数据挖掘领域有产生深远的影响。

的C4.5

C4.5算法是一种分类决策树算法，机器学习算法，核心算法是ID3算法C4.5算法继承了ID3算法的优点和ID3算法已经在以下几个方面：

1）信息增益率提高，选择属性，克服偏差值选择属性信息增益选择属性缺乏;

2）在树结构中修剪;

3）完成的过程中连续属性离散化;

4）不完整的数据。

C4.5算法有以下优点：产生的分类规则易于理解，准确率较高。其缺点是：在树形结构中，顺序扫描和排序的数据集，从而导致低效率的算法。

2。 K-means算法

k-means算法算法的k-means算法是一个聚类算法，根据其属性分成K，K <N的n个对象。与混合正态分布预期的算法是非常相似的，因为他们正试图找到一个自然聚类在数据中心。它假定从向量空间的对象属性，并且目标的各组内的最小均方误差的总和。

支持向量机

支持向量机，支持向量机的英语，简称SV机（通常被称为纸SVM）。这是一个监督的学习方法，这是广泛使用的统计分类和回归分析。支持向量机向量映射到高维空间，在这个空间中创建有一个最大间隔超平面。在单独的数据的超平面的两侧上的两个相互平行的超平面。分离超平面，使两个平行的超平面的距离最大化。假设越大平行的超平面的距离或空隙时，分类器的总误差越小。优秀导游CJC Burges“模式识别支持向量机指南。范德沃尔特和巴纳德的支持向量机等分类进行了比较。

Apriori算法

Apriori算法是一个最有影响力的挖掘布尔关联规则频繁项集算法，其核心是一组递归算法思想的基础上两个阶段的频率。关联规则被归类为一维的，单一的，布尔关联规则。在这里，所有支持大于称为最小支持度的项集称为频繁项集，作为频率设定

最大期望（EM）算法在统计计算的最大期望（EM，期望最大化）算法找到参数最大的期望经常用在机器学习和计算机视觉数据采集领域（数据聚类模型中的概率（概率）似然估计算法，其中概率模型是依赖于不可观察的隐变量（潜variabl）。）

6。的PageRank

谷歌的PageRank算法，2001年9月被授予了美国专利，该专利是谷歌创始人拉里·佩奇（Larry Page）。，PageRank和多年的不是指到页面上，但，这个水平是命名。

的PageRank根据网站的数量和质量来衡量网站的价值的内部和外部链接。背后的PageRank概念每个链接的网页是一个投票的页面，链接，投票更意味着其他网站，这是所谓的“链接流行度” - 衡量有多少人愿意被链接到他们的网站，您的网站。被引述的PageRank的概念经常被引用在学术论文 - 即被引用其他一些更普遍的权威判断本文

7 AdaBoost的

Adaboost的是一种迭代算法其核心思想是相同的训练集的不同的分类器（弱分类器），然后这些弱分类器共同构成一个更强的最终分类器（强分类器）。这个算法本身是通过改变数据分布，它是正确的，根据分类每个训练集的每个样品，和最后的总分类精度来确定每个样品的重量。的新数据集的权重给较低的分类器的训练，融合每个训练上的最终的分类，作为最终决定分类

KNN：k-最近邻分类

K近邻（K近邻，KNN）分类算法，是一个理论上更成熟的方式，也是最简单的机器学习算法的想法？方法是：如果在特征空间中的样本，K最相似的（即，在特征空间中最接近的大多数样品）属于一类，将样品也属于这一类。 BR p> 9。朴素贝叶斯

在众多的分类模型，两种最常用的分类模型是决策树模型（决策树模型）和Na？ve Bayes分类模型（朴素贝叶斯模型，NBC）天真贝叶斯模型发源于古典数学理论，具有扎实的数学基础，以及稳定的分类效率。与此同时，需要非常少的参数估计NBC模型，丢失的数据是不敏感的算法是相对简单。从理论上讲，NBC模型具有最小的误差率相比，与其他分类方法。但事实上并非总是如此，这是因为NBC模型假设属性相互独立的，在实际应用中，这种假设是往往不成立的，这带来了一定影响NBC模型的正确分类。数量的属性或属性之间的相关性较大时，NBC模型的分类比较决策树模型的效率。物业较少有关，表现NBC模型是最有利的。

10。车：分类和回归树
车，分类与回归树。在分类树下面有两个关键的思路。第一个是的想法？递归划分的独立变量的空间;第二个想法是修剪与验证数据。

鏁版嵁鎸栨帢璇剧▼,鏈夊叧淇℃伅澧炵泭鐨浠ｆ浛鎸囨爣鏈夊摢浜,骞舵壘鍑虹浉鍏宠嫳鏂囪鏂,鎴戝彧...
绛旓細1锛淇℃伅澧炵泭鐜囨彁楂橈紝閫夋嫨灞炴э紝鍏嬫湇鍋忓樊鍊奸夋嫨灞炴т俊鎭鐩婇夋嫨灞炴х己涔;2锛夊湪鏍戠粨鏋勪腑淇壀;3锛夊畬鎴愮殑杩囩▼涓繛缁睘鎬х鏁ｅ寲;4锛変笉瀹屾暣鐨鏁版嵁銆侰4.5绠楁硶鏈変互涓嬩紭鐐癸細浜х敓鐨勫垎绫昏鍒欐槗浜庣悊瑙ｏ紝鍑嗙‘鐜囪緝楂樸傚叾缂虹偣鏄細鍦ㄦ爲褰㈢粨鏋勪腑锛岄『搴忔壂鎻忓拰鎺掑簭鐨勬暟鎹泦锛屼粠鑰屽鑷翠綆鏁堢巼鐨勭畻娉曘2銆 K-means绠楁硶 k-me...

鏁版嵁鎸栨帢涓,淇℃伅澧炵泭姣旀槸浠涔?
绛旓細棣栧厛锛岃鎴戜滑鍥炲埌鍩虹銆傚綋闈㈠澶ч噺鏁版嵁闆嗭紝姣斿200,000涓牱鏈紝绫诲埆鍧囧寑鍒嗗竷锛孖D3鍜孋4.5鍦ㄩ夋嫨鐗瑰緛鏃讹紝纭疄浼氳冭檻淇℃伅澧炵泭銆傜劧鑰岋紝杩欏苟涓嶆剰鍛崇潃淇℃伅澧炵泭鎬绘槸鍋忓悜鍙栧煎鐨勭壒寰併備妇涓緥瀛愶紝濡傛灉鏈変袱涓壒寰侊紝A鏈10,000涓彇鍊硷紝B鍙湁2涓紝灏界瀹冧滑閮戒笌绫诲埆鏃犲叧锛屼絾ID3鏈鍒濆彲鑳戒笉浼氭槑鏄惧亸鍚慉銆傚叧閿湪浜庤绠...

淇℃伅澧炵泭鍒板簳鎬庝箞鐞嗚В鍛?
绛旓細鎺㈢储淇℃伅澧炵泭锛氱悊瑙ｄ笉纭畾鎬ч檷浣庣殑鑹烘湳鍦鏁版嵁绉戝鐨勫喅绛栨爲绠楁硶涓锛屼俊鎭鐩鏄竴涓叧閿殑姒傚康锛屽畠鎻ず浜嗘暟鎹壒寰佸棰勬祴缁撴灉鐨勫奖鍝嶅姏銆傞鍏堬紝璁╂垜浠粠鐞嗚В涓や釜鍩烘湰姒傚康寮濮嬶細鐔靛拰鏉′欢鐔点傜喌锛屽氨鍍忎竴涓害閲忥紝琛￠噺鐨勬槸闅忔満鍙橀噺鐨勪笉纭畾鎬э紝鏄俊鎭悊璁轰腑鐨勫熀鐭炽傚畠鎻忕粯浜嗕竴涓簨浠跺彂鐢熺殑闅忔満鎬э紝鏁板艰秺澶э紝涓嶇‘...

鏁版嵁鎸栨帢涓,杩炵画灞炴х殑鎵鏈夊彲鑳界殑鍒掑垎鐨淇℃伅澧炵泭濡備綍璁＄畻鍟
绛旓細涓嶆槸鍗佸垎娓呮浣犳墜涓鏁版嵁鐨鎯呭喌锛岀矖鐣ュ垽鏂紝浣犲彲浠ヨ冭檻鐢ㄥ垎绫诲喅绛栨爲妯″瀷鏉ュ仛鍐崇瓥鏍戞ā鍨嬪湪浠ヨ繛缁у彉閲忎负鐩爣鐨勬椂鍊欙紝鏄竴绉嶇壒娈婂舰寮忕殑鍥炲綊妯″瀷锛屽畠鍙互缁欏嚭鍏跺畠淇℃伅瀵圭洰鏍囧彉閲忔敼鍙樻儏鍐佃础鐚▼搴︾殑閲忓寲锛堟爣鍑嗗寲锛夛紝杩樺彲浠ョ敤寤哄ソ鐨勬ā鍨嬮娴嬫柊鏍锋湰鐨勭洰鏍囧彉閲忋傦紙鏁板瀛﹀埌寰堟繁鐨勭▼搴︿互鍚庯紝浣犲氨浼氱煡閬擄紝杩欎簺涓滆タ...

鏁版嵁鎸栨帢涓,灞炴鐨淇℃伅澧炵泭姣斿睘鎬鐨勪俊鎭鐩婂ぇ,璇存槑浜嗕粈涔?_鐧惧害...
绛旓細璁続灞炴т负涓撲笟锛孊灞炴т负瀛﹀巻锛岃绠楀緱鍒癆灞炴х殑淇℃伅澧炵泭姣擝鐨勫ぇ锛屼篃灏辨槸璇村湪鍒嗙被鏃讹紝A灞炴ф瘮B灞炴ф洿鍏峰弬鑰冧环鍊笺備簨瀹炰篃姝ｆ槸杩欐牱锛屼粠涓婅〃鍙緱鍒帮細鍙鏄绠楁満涓撲笟鐨勫鐢熼兘涔扮數鑴戠殑缁撹锛岃岄氳繃瀛﹀巻骞朵笉鑳藉緱鍑轰换浣曠粨璁猴紝浠ヤ负鍝瀛﹀巻鐨勫鐢熼兘鍙兘涔版垨涓嶄拱銆備笉鐭ラ亾杩欐牱浣犺兘鍚︽噦銆備俊鎭敹鐩婂彲浠ュ畾涔変负鏍锋湰...

鏁版嵁鎸栨帢涓殑棰勬祴绠楁硶鏈夊摢浜
绛旓細1銆佸喅绛栨爲鏂规硶銆傚叾鏍稿績鎬濇兂鏄夊彇鍏锋湁鏈楂淇℃伅澧炵泭鐨灞炴э紝鍗崇浉瀵逛簬淇℃伅鐔垫渶楂樼殑灞炴э紝鍙弬鑰冪淮鍩虹櫨绉戜腑浜岃呯殑璁＄畻鍏紡浣滀负褰撳墠鑺傜偣鐨勫垎瑁傚睘鎬с2銆佷汉宸ョ缁忕綉缁溿備汉宸ョ缁忕綉缁滐紝鏄浜鸿剳鑻ュ共鍩烘湰鐗规х殑鎶借薄銆傚畠鐢卞ぇ閲忕缁忓厓閫氳繃涓板瘜鐨勮繛鎺ユ瀯鎴愬灞傜綉缁滐紝鐢ㄤ互妯℃嫙浜鸿剳鍔熻兘銆3銆佹敮鎸佸悜閲忔満銆傛敮鎸佸悜閲忔満锛屾槸20...

鏁版嵁鎸栨帢涓殑缁忓吀绠楁硶
绛旓細1.K-Means绠楁硶 K-means algorithm绠楁硶鏄竴涓仛绫荤畻娉曪紝鎶妌鐨勫璞℃牴鎹粬浠殑灞炴у垎涓簁涓垎鍓诧紝k澶т簬n銆傚畠涓庡鐞嗘贩鍚堟鎬佸垎甯冪殑鏈澶ф湡鏈涚畻娉曞緢鐩镐技锛屽洜涓轰粬浠兘璇曞浘鎵惧埌鏁版嵁涓嚜鐒惰仛绫荤殑涓績銆傚畠鍋囪瀵硅薄灞炴ф潵鑷簬绌洪棿鍚戦噺锛屽苟涓旂洰鏍囨槸浣垮悇涓兢缁勫唴閮ㄧ殑鍧囨柟璇樊鎬诲拰鏈灏忋傝繖绉嶇畻娉曞湪鏁版嵁鎸栨帢涓槸鍗佸垎甯歌鐨...

淇℃伅澧炵泭鍑嗗垯涓轰粈涔堝鍙彇鍊兼暟鐩緝澶氱殑灞炴ф湁鎵鍋忓ソ
绛旓細浠庡叕寮忓嚭鍙戯紝淇℃伅澧炵泭鏄暣涓鏁版嵁闆嗙殑缁忛獙鐔典笌鐗瑰緛A瀵规暣涓暟鎹泦鐨勭粡楠屾潯浠剁喌鐨勫樊鍊硷紝淇℃伅澧炵泭瓒婂ぇ鍗崇粡楠屾潯浠剁喌瓒婂皬锛岄偅浠涔堟儏鍐典笅鐨勫睘鎬т細鏈夋瀬灏忕殑鐨勭粡楠屾潯浠剁喌鍛紵涓句釜鏋佺鐨勪緥瀛愶紝濡傛灉灏嗚韩浠借瘉鍙蜂綔涓轰竴涓睘鎬э紝閭ｄ箞锛屽叾瀹炴瘡涓汉鐨勮韩浠借瘉鍙烽兘鏄笉鐩稿悓鐨勶紝涔熷氨鏄锛屾湁澶氬皯涓汉锛屽氨鏈夊灏戠鍙栧硷紝濡傛灉...

鏁版嵁鎸栨帢鐨缁忓吀绠楁硶鏈夊摢浜?
绛旓細1) 鐢淇℃伅澧炵泭鐜囨潵閫夋嫨灞炴э紝鍏嬫湇浜嗙敤淇℃伅澧炵泭閫夋嫨灞炴ф椂鍋忓悜閫夋嫨鍙栧煎鐨勫睘鎬х殑涓嶈冻;2) 鍦ㄦ爲鏋勯犺繃绋嬩腑杩涜鍓灊;3) 鑳藉瀹屾垚瀵硅繛缁睘鎬х殑绂绘暎鍖栧鐞;4) 鑳藉瀵逛笉瀹屾暣鏁版嵁杩涜澶勭悊銆2. The k-means algorithm 鍗矺-Means绠楁硶 k-means algorithm绠楁硶鏄竴涓仛绫荤畻娉曪紝鎶妌鐨勫璞℃牴鎹粬浠殑灞炴у垎涓簁涓...

鏁版嵁鎸栨帢姒傚康涓庢妧鏈殑鍐呭绠浠
绛旓細鐮旂┒浜哄憳鍜屽紑鍙戜汉鍛樼殑涓鏈繀璇讳功銆傛湰涔︾1鐗堟浘鏄彈璇昏呮杩庣殑鏁版嵁鎸栨帢涓撹憲锛屾槸涓鏈彲璇绘ф瀬浣崇殑鏁欐潗銆傜2鐗堝厖瀹炰簡鏁版嵁鎸栨帢棰嗗煙鐮旂┒鏂拌繘灞曠殑棰樻潗锛屽鍔犱簡璁茶堪鏈鏂扮殑鏁版嵁鎸栨帢鏂规硶鐨勮嫢骞茬珷鑺傘傛湰涔﹂傚悎浣滀负楂樼瓑闄㈡牎璁＄畻鏈哄強鐩稿叧涓撲笟楂樺勾绾ф湰绉戠敓鐨勯変慨璇炬暀鏉愶紝鐗瑰埆閫傚悎浣滀负鐮旂┒鐢熺殑涓撲笟璇炬暀鏉愩

扩展阅读：数据挖掘十大算法 ... 数据挖掘生成哪些信息 ... 数据挖掘课程设计题目 ... 数据挖掘课程心得体会 ... 数据挖掘考试卷子及答案 ... 数据挖掘课程设计30篇 ... 数据挖掘的课程推荐 ... 数据挖掘工具三种 ... 数据挖掘信息增益计算公式 ...

车视网

数据挖掘课程，有关信息增益的代替指标有哪些，并找出相关英文论文，我只找到了gini index，帮帮我