16种常用的数据分析方法-因子分析


因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法。 


是一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法




基本思想


根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构一即公共因子。




为什么做因子分析


举例说明:在实际门店问题中,往往我们会选择潜力最大的门店作为领航店,以此为样板,实现业绩和利润的突破及未来新店的标杆。选择领航店过程中我们要注重很多因素,比如:


↘所在小区的房价

↘总面积

↘户主年龄分布

↘小区户数

↘门店面积

↘2公里范围内竞争门店数量等


收集到所有的这些数据虽然能够全面、精准的确定领航店的入选标准,但实际建模时这些变量未必能够发挥出预期的作用。主要体现两方面:计算量的问题;变量间的相关性问题。


这时,最简单直接的方案就是削减变量个数,确定主要变量,因子分析以最少的信息丢失为前提,将众多的原有变量综合成少数的综合指标。




因子分析特点


因子个数远小于变量个数;


能够反应原变量的绝大数信息;


因子之间的线性关系不显著;


因子具有命名解释性




因子分析步骤


1.原有变量是否能够进行因子分析;

2.提取因子;


3.因子的命名解释;


4.计算因子得分;五、综合评价




因子与主成分分析的区别


相同:都能够起到处理多个原始变量内在结构关系的作用


不同:主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法


因子分析可以看做是优化后的主成分分析,两种方法有很多共通的地方,但应用方面各有侧重。




因子分析应用场景



因子分析方法主要用于三种场景,分别是:


l 信息浓缩 :将多个分析项浓缩成几个关键概括性指标。比如将多个问卷题浓缩成几个指标。如果偏重信息浓缩且关注指标与分析项对应关系,使用因子分析更为适合。


l 权重计算 :利用方差解释率值计算各概括性指标的权重。在信息浓缩的基础上,可进一步计算每个主成分/因子的权重,构建指标权重体系。


l 综合竞争力 :利用成分得分和方差解释率这两项指标,计算得到综合得分,用于综合竞争力对比(综合得分值越高意味着竞争力越强)。此类应用常见于经济、管理类研究,比如上市公司的竞争实力对比。




因子分析案例


现在有 12 个地区的 5 个经济指标调查数据(总人口、学校校龄、总雇员、专业服务、中等房价),为对这 12 个地区进行综合评价,请确定出这 12 个地区的综合评价指标。( 综合竞争力应用场景


同一指标在不同地区是不同的,用单一某一个指标难以对12个地区进行准确的评价,单一指标只能反映地区的某一方面。所以,有必要确定综合评价指标,便于对比。因子分析方法就可以应用在这个案例中。


5 个指标即为我们分析的对象,我们希望从这5个可观测指标中寻找出潜在的因素,用这些具有综合信息的因素对各地区进行评价。


下图spss因子分析的操作界面主要包括5方面的选项,变量区只能选择数值型变量,分类型变量不能进入该模型。


spss软件为了消除不同变量间量纲和数量级对结果的影响,在该过程中默认自动进行标准化处理,因此不需要对这些变量提前进行标准化处理。

 



描述统计选项卡


希望看到各变量的描述统计信息,要对比因子提取前后的方差变化,选定“单变量描述性”和“原始分析结果”;


现在是基于相关矩阵提取因子,所以,选定相关矩阵的“系数和显著性水平“,


另外,比较重要的还有 KMO 和球形检验,通过KMO值,我们可以初步判断该数据集是否适合采用因子分析方法,kmo结果有时并不会出现,这主要与变量个数和样本量大小有关。

 

 



抽取选项卡:在该选项卡中设置如何提取因子


提取因子的方法有很多,最常用的就是主成分法。


因为参与分析的变量测度单位不同,所以选择“相关矩阵”,如果参与分析的变量测度单位相同,则考虑选用协方差矩阵。


经常用到碎石图对于判断因子的个数很有帮助,一般都会选择该项。关于特征值,一般spss默认只提取特征值大于1的因子。收敛次数比较重要,可以从首次结果反馈的信息进行调整。

 

 


因子旋转选项卡


因子分析要求对因子给予命名和解释,是否对因子旋转取决于因子的解释。


旋转就是坐标变换,使得因子系数向1 和 0 靠近,对公因子的命名和解释更加容易。旋转方法一般采用”最大方差法“即可,输出旋转后的因子矩阵和载荷图,对于结果的解释非常有帮助。


如果不经旋转因子已经很好解释,那么没有必要旋转,否则,应该旋转。

 

 


保存因子得分


要计算因子得分就要先写出因子的表达式。因子是不能直接观察到的,是潜在的。但是可以通过可观测到的变量获得。


因子分析模型是原始变量为因子的线性组合,现在我们可以根据回归的方法将模型倒过来,用原始变量也就是参与分析的变量来表示因子。从而得到因子得分。因子得分作为变量保存,对于以后深入分析很有用处。

 




结果解读:验证数据是否适合做因子分析


参考kmo结果,一般认为大于0.5,即可接受。同时还可以参考相关系数,一般认为分析变量的相关系数多数大于 0.3,则适合做因子分析;


KMO=0.575 检验来看,不是特别适合因子分析,基本可以通过。


 

 



结果解读:因子方差表


提取因子后因子方差的值均很高,表明提取的因子能很好的描述这 5 个指标。


方差分解表表明,默认提取的前两个因子能够解释 5 个指标的 93.4%。碎石图表明,从第三个因子开始,特征值差异很小。综上,提取前两个因子。


 

 

 

 



结果解读:因子矩阵


旋转因子矩阵可以看出,经旋转后,因子便于命名和解释。


因子 1主要解释的是中等房价、专业服务项目、中等校平均校龄,可以命名为社会福利因子;


因子 2 主要解释的是其余两个指标,总人口和总雇员。可以命名为人口因子。


因子分析要求最后得到的因子之间相互独立,没有相关性,而因子转换矩阵显示,两个因子相关性较低。可见,对因子进行旋转是完全有必要的。


 



结果解读:因子系数


因子得分就是根据这个系数和标准化后的分析变量得到的。在数据视图中可以看到因子得分变量。



结论


经过因子分析实现了目的,找到了两个综合评价指标,人口因子和福利因子。


从原来的 5 个指标挖掘出 2 个潜在的综合因子。可以对12 个地区给出客观评价。

 

 

 

可以根据因子1或因子2得分,对这12个地区进行从大到小排序,得分高者被认为在这个维度上有较好表现。





  • 16绉嶅父鐢ㄧ殑鏁版嵁鍒嗘瀽鏂规硶-鍥犲瓙鍒嗘瀽
    绛旓細鏃嬭浆灏辨槸鍧愭爣鍙樻崲,浣垮緱鍥犲瓙绯绘暟鍚1 鍜 0 闈犺繎,瀵瑰叕鍥犲瓙鐨勫懡鍚嶅拰瑙i噴鏇村姞瀹规槗銆傛棆杞柟娉曚竴鑸噰鐢ㄢ濇渶澶ф柟宸硶鈥滃嵆鍙,杈撳嚭鏃嬭浆鍚庣殑鍥犲瓙鐭╅樀鍜岃浇鑽峰浘,瀵逛簬缁撴灉鐨勮В閲婇潪甯告湁甯姪銆 濡傛灉涓嶇粡鏃嬭浆鍥犲瓙宸茬粡寰堝ソ瑙i噴,閭d箞娌℃湁蹇呰鏃嬭浆,鍚﹀垯,搴旇鏃嬭浆銆 淇濆瓨鍥犲瓙寰楀垎 瑕佽绠楀洜瀛愬緱鍒嗗氨瑕佸厛鍐欏嚭鍥犲瓙鐨勮〃杈惧紡銆傚洜瀛愭槸涓嶈兘鐩存帴瑙...
  • 16绉嶅父鐢ㄧ殑鏁版嵁鍒嗘瀽鏂规硶姹囨
    绛旓細3銆佸鍥犵礌鏃犱氦浜掓柟宸垎鏋:鍒嗘瀽澶氫釜褰卞搷鍥犵礌涓庡搷搴斿彉閲忕殑鍏崇郴,浣嗘槸褰卞搷鍥犵礌涔嬮棿娌℃湁褰卞搷鍏崇郴鎴栧拷鐣ュ奖鍝嶅叧绯 4銆佸崗鏂瑰樊鍒嗙:浼犵粺鐨勬柟宸垎鏋愬瓨鍦ㄦ槑鏄剧殑寮婄,鏃犳硶鎺у埗鍒嗘瀽涓瓨鍦ㄧ殑鏌愪簺闅忔満鍥犵礌,浣夸箣褰卞搷浜嗗垎绁堢粨鏋滅殑鍑嗙‘搴︺傚崗鏂瑰樊鍒嗘瀽涓昏鏄湪鎺掗櫎浜嗗崗鍙橀噺鐨勫奖鍝嶅悗鍐嶅淇鍚庣殑涓绘晥搴旇繘琛屾柟宸垎鏋,鏄皢绾挎у洖褰掍笌鏂瑰樊鍒嗘瀽...
  • 鎬庢牱鍋鍥犲瓙鍒嗘瀽?
    绛旓細鍥犲瓙鍒嗘瀽(鎺㈢储鎬у洜瀛愬垎鏋)鐢ㄤ簬鎺㈢储鍒嗘瀽椤(瀹氶噺鏁版嵁)搴旇鍒嗘垚鍑犱釜鍥犲瓙(鍙橀噺),姣斿20涓噺琛ㄩ椤瑰簲璇ュ垎鎴愬嚑涓柟闈㈣緝涓哄悎閫;鐢ㄦ埛鍙嚜琛岃缃洜瀛愪釜鏁,濡傛灉涓嶈缃,绯荤粺浼氫互鐗瑰緛鏍瑰煎ぇ浜1浣滀负鍒ゅ畾鏍囧噯璁惧畾鍥犲瓙涓暟銆 鍥犲瓙鍒嗘瀽閫氬父鏈変笁涓楠;绗竴姝ユ槸鍒ゆ柇鏄惁閫傚悎杩涜鍥犲瓙鍒嗘瀽;绗簩姝ユ槸鍥犲瓙涓庨椤瑰搴斿叧绯诲垽鏂;绗笁姝ユ槸鍥...
  • spss鍥犲瓙鍒嗘瀽璇︾粏姝ラ
    绛旓細浣跨敤鍥犲瓙鍒嗘瀽杩涜淇℃伅娴撶缉鐮旂┒锛岄鍏堝垎鏋愮爺绌舵暟鎹槸鍚﹂傚悎杩涜鍥犲瓙鍒嗘瀽锛屼粠涓婅〃鍙互鐪嬪嚭锛欿MO涓0.876锛屽ぇ浜0.6锛屾弧瓒冲洜瀛愬垎鏋愮殑鍓嶆彁瑕佹眰锛屾剰鍛崇潃鏁版嵁鍙敤浜庡洜瀛愬垎鏋愮爺绌躲備互鍙婃暟鎹氳繃Bartlett 鐞冨舰搴︽楠(p<0.05)锛岃鏄庣爺绌舵暟鎹傚悎杩涜鍥犲瓙鍒嗘瀽銆2.鏂瑰樊瑙i噴鐜囪〃鏍 涓昏鐢ㄤ簬鍒ゆ柇鎻愬彇澶氬皯涓洜瀛愬悎閫傘備互鍙婃瘡涓...
  • 鏁版嵁鍒嗘瀽鏂规硶鍜屾妧宸ф暟鎹垎鏋愭柟娉
    绛旓細15銆鍗忔柟宸垎鏋涓昏鏄湪鎺掗櫎浜嗗崗鍙橀噺鐨勫奖鍝嶅悗鍐嶅淇鍚庣殑涓绘晥搴旇繘琛屾柟宸垎鏋愶紝鏄皢绾挎у洖褰掍笌鏂瑰樊鍒嗘瀽缁撳悎璧锋潵鐨勪竴绉嶅垎鏋愭柟娉曘16銆佸洓銆佸亣璁炬楠1. 鍙傛暟妫楠屽弬鏁版楠屾槸鍦ㄥ凡鐭ユ讳綋鍒嗗竷鐨勬潯浠朵笅锛堜竴鑲¤姹傛讳綋鏈嶄粠姝f佸垎甯冿級瀵逛竴浜涗富瑕佺殑鍙傛暟(濡傚潎鍊笺佺櫨鍒嗘暟銆佹柟宸佺浉鍏崇郴鏁扮瓑锛夎繘琛岀殑妫楠 銆17銆2. 闈...
  • 鍥犲瓙鍒嗘瀽杩囩▼?
    绛旓細鈶跺埄鐢ㄦ棆杞鏂规硶浣垮洜瀛愬彉閲忔洿鍏锋湁鍙В閲婃с傗懛璁$畻鍥犲瓙鍙橀噺寰楀垎銆(ii)鍥犲瓙鍒嗘瀽鐨勮绠楄繃绋:鈶村皢鍘熷鏁版嵁鏍囧噯鍖,浠ユ秷闄ゅ彉閲忛棿鍦ㄦ暟閲忕骇鍜岄噺绾蹭笂鐨勪笉鍚屻傗懙姹傛爣鍑嗗寲鏁版嵁鐨勭浉鍏崇煩闃;鈶舵眰鐩稿叧鐭╅樀鐨勭壒寰佸煎拰鐗瑰緛鍚戦噺;鈶疯绠楁柟宸础鐚巼涓庣疮绉柟宸础鐚巼;鈶哥‘瀹氬洜瀛:璁綟1,F2,鈥, Fp涓簆涓洜瀛,鍏朵腑鍓峬涓洜瀛愬寘鍚鐨勬暟鎹...
  • 16绉嶅父鐢ㄧ殑鏁版嵁鍒嗘瀽鏂规硶-涓绘垚鍒嗗垎鏋
    绛旓細瀵逛富鎴愬垎缁撴灉鐨鍒嗘瀽涓昏浠庡叕鍥犲瓙鏂瑰樊(communalities)銆佹彁鍙栦富鎴愬垎鍜屽己鍒舵彁鍙栦富鎴愬垎涓変釜鏂归潰杩涜銆 鍏洜瀛愭柟宸粨鏋 SPSS杈撳嚭鍏洜瀛愭柟宸粨鏋滃涓: 鐮旂┒涓湁澶氬皯涓彉閲鏁版嵁缁撴灉灏变細杈撳嚭澶氬皯涓垚鍒,鏈爺绌朵腑鍏辨湁25涓彉閲,灏变細瀵瑰簲浜х敓25涓垚鍒嗐 鈥淓xtraction鈥濇爮鎻愮ず褰撳彧淇濈暀閫変腑鐨勬垚鍒嗘椂,鍙橀噺鍙樺紓琚В閲婄殑绋嬪害銆 鎻愬彇涓...
  • 16绉嶅父鐢ㄧ殑鏁版嵁鍒嗘瀽鏂规硶-鏃堕棿搴忓垪鍒嗘瀽
    绛旓細1)鐢ㄨ娴嬨佽皟鏌ャ佺粺璁°佹娊鏍风瓑鏂规硶鍙栧緱琚娴嬬郴缁熸椂闂村簭鍒楀姩鎬鏁版嵁銆2)鏍规嵁鍔ㄦ佹暟鎹綔鐩稿叧鍥撅紝杩涜鐩稿叧鍒嗘瀽锛屾眰鑷浉鍏冲嚱鏁般傜浉鍏冲浘鑳芥樉绀哄嚭鍙樺寲鐨勮秼鍔垮拰鍛ㄦ湡锛屽苟鑳藉彂鐜拌烦鐐瑰拰鎷愮偣銆傝烦鐐规槸鎸囦笌鍏朵粬鏁版嵁涓嶄竴鑷寸殑瑙傛祴鍊笺傚鏋滆烦鐐规槸姝g‘鐨勮娴嬪,鍦ㄥ缓妯℃椂搴旇冭檻杩涘幓,濡傛灉鏄弽甯哥幇璞★紝鍒欏簲鎶婅烦鐐硅皟鏁村埌鏈熸湜...
  • 16绉嶅父鐢ㄧ殑鏁版嵁鍒嗘瀽鏂规硶-鐩稿叧鍒嗘瀽
    绛旓細鐩稿叧鍒嗘瀽鏄竴绉嶇畝鍗曟槗琛岀殑娴嬮噺瀹氶噺鏁版嵁涔嬮棿鐨勫叧绯绘儏鍐鐨勫垎鏋愭柟娉銆傚彲浠ュ垎鏋愬寘鎷彉閲忛棿鐨勫叧绯绘儏鍐典互鍙婂叧绯诲己寮辩▼搴︾瓑銆傚锛氳韩楂樺拰浣撻噸鐨勭浉鍏虫э紱闄嶆按閲忎笌娌虫祦姘翠綅鐨勭浉鍏虫э紱宸ヤ綔鍘嬪姏涓庡績鐞嗗仴搴风殑鐩稿叧鎬х瓑銆傜浉鍏虫х绫 瀹㈣浜嬬墿涔嬮棿鐨勭浉鍏虫э紝澶ц嚧鍙綊绾充负涓ゅぇ绫伙細涓銆佸嚱鏁板叧绯 鍑芥暟鍏崇郴鏄袱涓彉閲忕殑鍙栧煎瓨鍦...
  • 16绉嶅父鐢ㄧ殑鏁版嵁鍒嗘瀽鏂规硶-鐢熷瓨鍒嗘瀽
    绛旓細鎺㈢┒鍙橀噺涔嬮棿鐨勫叧绯绘槸鏁版嵁鎸栨帢涓殑涓涓熀鏈垎鏋愬唴瀹癸紝瀵逛簬甯歌鐨勭鏁e瀷鎴栬呰繛缁瀷鍙橀噺锛屾湁寰堝鐨勬柟娉曞彲浠ョ敤浜庢寲鎺樺叾涓殑鍏崇郴锛屾瘮濡傜嚎鎬у洖褰掞紝閫昏緫鍥炲綊绛夌瓑銆傜劧鑰屾湁涓绫绘暟鎹潪甯哥殑鐗规畩锛岀敤鍥炲綊鍒嗘瀽绛夊父鐢ㄦ墜娈靛嚭澶勭悊杩欑被鏁版嵁骞朵笉鍚堥傦紝杩欑被鏁版嵁灏辨槸鐢熷瓨鏁版嵁銆傚父瑙勬暟鎹湪琛ㄧず鏃讹紝鍙渶瑕佷竴涓硷紝姣斿鎮h呯殑琛鍘嬶紝...
  • 扩展阅读:数据分析的五种方法 ... 数据分析的四个步骤 ... 最常见的数据分析方法 ... 数据分析图表怎么做 ... 常见数据分析图表 ... 数据分析方法可采用 ... 数据分析流程五个步骤 ... 财务分析的五种方法 ... 数据分析一次多少钱 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网