线性回归模型是否适合所有的数据?

原文链接:http://tecdat.cn/?p=20882 

 

1导言

这篇文章探讨了为什么使用广义相加模型 是一个不错的选择。为此,我们首先需要看一下线性回归,看看为什么在某些情况下它可能不是最佳选择。


2回归模型

假设我们有一些带有两个属性Y和X的数据。如果它们是线性相关的,则它们可能看起来像这样:

a<-ggplot(my_data, aes(x=X,y=Y))+geom_point()+

 

为了检查这种关系,我们可以使用回归模型。线性回归是一种使用X来预测变量Y的方法。将其应用于我们的数据将预测成红线的一组值:

a+geom_smooth(col="red", method="lm")+

 

这就是“直线方程式”。根据此等式,我们可以从直线在y轴上开始的位置(“截距”或α)开始描述,并且每个单位的x都增加了多少y(“斜率”),我们将它称为x的系数,或称为β)。还有一点自然的波动,如果没有的话,所有的点都将是完美的。我们将此称为“残差”(ϵ)。数学上是:

或者,如果我们用实际数字代替,则会得到以下结果:

 

 

这篇文章通过考虑每个数据点和线之间的差异(“残差)然后最小化这种差异来估算模型。我们在线的上方和下方都有正误差和负误差,因此,通过对它们进行平方并最小化“平方和”,使它们对于估计都为正。这称为“普通最小二乘法”或OLS。


3非线性关系如何?

因此,如果我们的数据看起来像这样,我们该怎么办:

 

我们刚刚看到的模型的关键假设之一是y和x线性相关。如果我们的y不是正态分布的,则使用广义线性模型 (Nelder&Wedderburn,1972),其中y通过链接函数进行变换,但再次假设f(y)和x线性相关。如果不是这种情况,并且关系在x的范围内变化,则可能不是最合适的。我们在这里有一些选择:



  • 绾挎у洖褰掓ā鍨嬫槸鍚﹂傚悎鎵鏈夌殑鏁版嵁?
    绛旓細濡傛灉鎮ㄨ寤虹珛鍥炲綊妯″瀷,浣嗘鐤戝厜婊戞嫙鍚堜細鍋氬緱鏇村ソ,閭d箞GAM鏄竴涓笉閿欑殑閫夋嫨銆傚畠浠閫傚悎浜庨潪绾挎鎴栨湁鍣0鐨勬暟鎹銆 7 gam鎷熷悎 閭d箞,濡備綍 涓轰笂杩癝鍨嬫暟鎹缓绔 GAM妯″瀷?鍦ㄨ繖閲,鎴戝皢浣跨敤涓夋鏍锋潯鍥炲綊 : gam(Y ~ s(X, bs="cr") 涓婇潰鐨勮缃剰鍛崇潃: s()鎸囧畾鍏夋粦鍣ㄣ傝繕鏈夊叾浠栭夐」,浣嗘槸s鏄涓涓緢濂界殑榛樿閫夐」 bs=...
  • 绾挎у洖褰掗傜敤浜鍝簺绫诲瀷鐨勬暟鎹鍒嗘瀽?
    绛旓細绾挎у洖褰掓槸涓绉嶅箍娉涘簲鐢ㄤ簬鏁版嵁鍒嗘瀽鐨勭粺璁℃柟娉曪紝閫傜敤浜庝互涓嬬被鍨嬬殑鏁版嵁鍒嗘瀽锛1.棰勬祴鍒嗘瀽锛氱嚎鎬у洖褰掑彲浠ョ敤浜庨娴嬭繛缁彉閲忕殑鍊銆傞氳繃寤虹珛涓涓嚎鎬фā鍨嬶紝鍙互鏍规嵁鑷彉閲忕殑鍙樺寲鏉ラ娴嬪洜鍙橀噺鐨勫笺備緥濡傦紝鍙互浣跨敤绾挎у洖褰掓潵棰勬祴鎴夸环銆侀攢鍞鎴栬偂绁ㄤ环鏍肩瓑銆2.鍏崇郴鍒嗘瀽锛氱嚎鎬у洖褰掑彲浠ュ府鍔╃‘瀹氫袱涓垨澶氫釜鍙橀噺涔嬮棿鐨勫叧绯汇
  • 绾挎у洖褰鍜岀嚎鎬х浉鍏冲垎鏋愬鏁版嵁鏈変粈涔堣姹
    绛旓細鍙互鏄杩炵画鎬ф暟鎹紝涔熷彲浠ユ槸鍒嗙被鏁版嵁銆绾挎у洖褰鍒嗘瀽鐨勬暟鎹瑕佹眰锛氳嚜鍙橀噺鍙互鏄垎绫诲彉閲忓拰杩炵画鎬у彉閲忥紝鍥犲彉閲忓繀椤绘槸杩炵画鎬у彉閲忋傚垎绫诲彉閲忥細姣斿鎬у埆\姘戞棌\瀛﹀巻绛夛紝鏁版嵁涔嬮棿鏃犳硶杩涜鍔犲噺鐨勩傝繛缁彉閲忥細姣斿韬珮\浣撻噸\鏀跺叆\娓╁害绛夛紝杩欑鏈夊叿浣撴剰涔夌殑鏁版嵁锛屽彲浠ヨ繘琛屽钩鍧囧拰鍔犲噺鐨勩
  • 绾挎у洖褰掓槸浠涔堟剰鎬?
    绛旓細娌℃湁鍏蜂綋鏁版嵁瑕佹眰锛屼竴鑸潵璇达紝鏁版嵁瓒婂瓒婂ソ銆傞氳繃绾挎у洖褰掔畻娉曪紝鎴戜滑鍙兘浼氬緱鍒板緢澶氱殑绾挎у洖褰掓ā鍨嬶紝浣嗘槸涓嶅悓鐨勬ā鍨嬪浜庢暟鎹殑鎷熷悎鎴栬呮槸鎻忚堪鑳藉姏鏄笉涓鏍风殑銆傛垜浠殑鐩殑鏈缁堟槸闇瑕佹壘鍒颁竴涓兘澶熸渶绮剧‘鍦版弿杩版暟鎹箣闂村叧绯荤殑绾挎у洖褰掓ā鍨嬨傝繖鏄氨闇瑕佺敤鍒颁唬浠峰嚱鏁般備唬浠峰嚱鏁板氨鏄敤鏉ユ弿杩扮嚎鎬у洖褰掓ā鍨嬩笌姝e紡鏁版嵁涔...
  • 鎬庢牱璇勪及绾挎у洖褰掓ā鍨嬬殑鎷熷悎鏁堟灉?
    绛旓細1.鍐冲畾绯绘暟锛圧_锛夛細鍐冲畾绯绘暟鏄涓涓粺璁″姒傚康锛岀敤浜庤 閲鍥炲綊妯″瀷瀵鏁版嵁鐨鎷熷悎绋嬪害銆傚畠鐨勫间粙浜0鍜1涔嬮棿锛岃秺鎺ヨ繎1琛ㄧず妯″瀷鐨鎷熷悎鏁堟灉瓒婂ソ銆2.鍧囨柟璇樊锛圡SE锛夛細鍧囨柟璇樊鏄娴嬪间笌瀹為檯鍊间箣闂村樊鐨勫钩鏂圭殑骞冲潎鍊笺侻SE鐨勫艰秺灏忥紝琛ㄧず妯″瀷鐨勯娴嬬簿搴﹁秺楂樸3.鍧囨柟鏍硅宸紙RMSE锛夛細鍧囨柟鏍硅宸槸MSE鐨勫钩鏂规牴...
  • 缁熻涓父甯哥敤鍒板摢浜妯″瀷?
    绛旓細鍦ㄧ粺璁″涓紝鏈夎澶氫笉鍚岀殑妯″瀷琚敤浜鏁版嵁鍒嗘瀽銆侀娴嬪拰鎺ㄦ柇銆備互涓鏄涓浜涘父瑙佺殑缁熻妯″瀷锛1. 绾挎у洖褰掓ā鍨锛氱嚎鎬у洖褰掓ā鍨嬬敤浜庡缓绔嬭嚜鍙橀噺涓庡洜鍙橀噺涔嬮棿鐨勭嚎鎬у叧绯伙紝骞堕氳繃鏈灏忎簩涔樻硶鏉ヤ及璁℃ā鍨嬪弬鏁般2. 閫昏緫鍥炲綊妯″瀷锛氶昏緫鍥炲綊妯″瀷鐢ㄤ簬寤虹珛鑷彉閲忎笌浜屽垎绫诲洜鍙橀噺涔嬮棿鐨勫叧绯伙紝骞堕氳繃鏈澶т技鐒朵及璁℃潵浼拌妯″瀷鍙傛暟銆3...
  • 浠涔鏄嚎鎬у洖褰掓ā鍨
    绛旓細濡傛灉鍥炲綊鍒嗘瀽涓寘鎷袱涓垨涓や釜浠ヤ笂鐨勮嚜鍙橀噺,涓斿洜鍙橀噺鍜岃嚜鍙橀噺涔嬮棿鏄绾挎у叧绯,鍒欑О涓哄鍏冪嚎鎬у洖褰掑垎鏋愩 鍦ㄧ嚎鎬у洖褰掍腑,鏁版嵁浣跨敤绾挎ч娴嬪嚱鏁版潵寤烘ā,骞朵笖鏈煡鐨勬ā鍨嬪弬鏁颁篃鏄氳繃鏁版嵁鏉ヤ及璁°傝繖浜涙ā鍨嬭鍙仛绾挎фā鍨銆傛渶甯哥敤鐨勭嚎鎬у洖褰掑缓妯℃槸缁欏畾X鍊肩殑y鐨勬潯浠跺潎鍊兼槸X鐨勪豢灏勫嚱鏁般備笉澶竴鑸殑鎯呭喌,绾挎у洖褰掓ā鍨鍙互鏄竴涓...
  • 濡備綍琛¢噺绾挎у洖褰掓ā鍨嬬殑鎷熷悎绋嬪害?
    绛旓細鍏朵腑锛孿(\bar{y}\)鏄墍鏈瀹為檯鍊肩殑骞冲潎鍊笺備妇渚嬫潵璇达紝鍋囪鎴戜滑鏈変竴涓叧浜庢埧灞嬩环鏍间笌闈㈢Н鐨勬暟鎹闆嗭紝骞舵兂寤虹珛涓涓绾挎у洖褰掓ā鍨鏉ラ娴嬫埧灞嬩环鏍笺傛垜浠彲浠ヤ娇鐢ㄤ笂杩版寚鏍囨潵璇勪及妯″瀷鐨鎷熷悎绋嬪害銆傚亣璁炬垜浠緱鍒扮殑MSE涓10000锛孯MSE涓100锛孯鏂瑰间负0.9銆傝繖鎰忓懗鐫棰勬祴鍊间笌瀹為檯鍊间箣闂寸殑骞冲潎璇樊涓10000锛岄娴嬪肩殑璇樊...
  • 鏈哄櫒瀛︿範鐨勪紭缂虹偣
    绛旓細2銆佸彲浠閫傜敤杩炵画鍨嬪拰绂绘暎鍨嬭嚜鍙橀噺銆3銆佸彲浠ユ牴鎹疄闄呴渶姹傝瀹氬叿浣撶殑闃堝笺傜己鐐癸細1銆佺敱浜庡叾鏄鍩轰簬绾挎у洖褰掓ā鍨涔嬩笂锛屽洜姝ゅ叾鍚屾牱浼氬嚭鐜板閲嶅叡绾挎ч棶棰樸2銆佸緢闅惧鐞鏁版嵁涓嶅潎琛¢棶棰樸3銆佸鏄撴瑺鎷熷悎锛岀簿搴︿笉楂樸備笁銆並NN锛圞鈥旇繎閭伙級浼樼偣锛1銆佺畝鍗曪紝鏄撲簬瀹炵幇锛屾槗浜庣悊瑙o紝鏃犻渶鍙傛暟浼拌銆2銆佽缁冩椂闂翠负0锛屽畠娌℃湁...
  • 鍥炲綊妯″瀷鎵惧摢浜鏁版嵁
    绛旓細鍥炲綊妯″瀷锛坮egression model锛夊缁熻鍏崇郴杩涜瀹氶噺鎻忚堪鐨勪竴绉嶆暟瀛︽ā鍨嬨傚澶氬厓绾挎у洖褰掔殑鏁板妯″瀷鍙互琛ㄧず涓簓=尾0+尾1*x+蔚i锛屽紡涓紝尾0锛屛1锛屸︼紝尾p鏄p+1涓緟浼拌鐨勫弬鏁般偽礽鏄浉浜掔嫭绔嬩笖鏈嶄粠鍚屼竴姝f佸垎甯僋(0,蟽2)鐨勯殢鏈哄彉閲忥紝y鏄殢鏈哄彉閲忥紱x鍙互鏄殢鏈哄彉閲忥紝涔熷彲浠ユ槸闈為殢鏈哄彉閲,尾i绉颁负...
  • 扩展阅读:经典回归模型是什么 ... logistic回归 ... 数据分析七种模型 ... 回归分析模型有哪些 ... 最简单的回归模型 ... 建立回归模型五个步骤 ... 基准回归模型构建过程 ... 时间序列的7种预测模型 ... 一元回归模型步骤 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网