给女朋友写的生统资料

我们之前提到的线性回归是利用X来预测Y,Y是连续型的数值变量。但有时候Y并不是连续型的变量,而是一种 离散型的变量 。或者说,更准确来说,是一种 定类数据 。举个《统计学习导论》书上的例子,假设现在要通过一个急救室病人的症状来预测其患病情况。我们有三种可能的诊断:中风,服药过量,癫痫发作。我们分别用数字来表示这种诊断

这里的诊断结果就是Y,症状就是X。我们也可以用前面线性回归来做,但这样就是默认其实是一个有序的输出。但实际上,中风,服药过量,癫痫发作这三类数据虽然我们用数字来代表,但其实并不是有顺序之分的,所以用线性回归并不适合。所以,我们就可以考虑用logistic回归来解决这种 分类问题

在做logistic回归的时候,我们也会将我们最后的二元结果用数字来表示,一个代表1,一个代表0。我们最后预测能得到的是 y=1 的概率!

我们来看下logistic的模型

其中 p 代表 y = 1 的概率 ,x 代表了不同的自变量, 表示了误差项。与线性回归模型对比,等式右边完全相同,实际上逻辑回归模型也是广义上的线性模型。而等式的左边形式更复杂了,引入了一些非线性的变换。大家可以看到,我们这里等式左边变成了一个对数, 我们常称为对数发生比(log-odd)或分对数(logit) 。对数里面的 就是 发生比(odd) ,取值范围可以从0到正无穷。

然后我们估计回归参数的话,就变成

有时候,也会将logistic的模型写成(我不太喜欢这么写,但有时候看助教答案是这么写的)

下面是logistic回归的一些tip

用两个作业里面的题目举个例子:

数据文件“Drivers.csv”为对45名司机的调查结果,其中四个变量的含义为:

1.请在R语言中调用logistic回归函数,计算视力状况、年龄、驾车教育与是否发生事故的logistic回归模型,并以“odds=……”的形式写出回归公式。

R语言里面调用logistic回归函数是用 glm 函数。glm函数其实是拟合广义线性模型的函数,logistic回归只是其中一种。所以你要加上family=binomial,代表逻辑斯蒂回归

然后我们的logistic回归模型就是

但题目要求的是odds的形式,那么我们再改写下

2.指出(1)得到的模型中哪些因素对是否发生事故有显著性影响。如果存在对是否发生事故没有显著性影响的因素,请去除这些因素后重新计算logistic回归模型,并以“p=……”的形式写出回归公式

我们根据前面结果的p-value,就发现视力是由显著性影响的,其他因素没有显著性影响。

然后我们去掉这些因素,只留下视力这个因素,再次拟合一个logistic回归模型

这回是以p的形式

我们还可以比较下,这两个方程在统计学上是不是有差异的,就是跟线性回归一样用anova函数

发现两个模型是没有差异的。

3.A是一名参加过驾车教育,但视力有问题的50岁老司机;B是一名没有参加过驾车教育,但视力良好的20岁新手。现在A、B都想在某保险公司投保,但按公司规定,被保险人必须满足“明年出事故的概率不高于40%”的条件才能予以承保。请预测A、B两者明年出事故的概率,并告诉保险公司谁可以投保。

这里就是用我们构建的模型去预测结果。但有一个问题就是拿哪个模型去预测呢。 答案里面是用了精简以后的(去掉了不显著的变量)模型。

这题的数据比较多,且比较麻烦。我就不放数据了,写出来只是为了讲下参考变量和训练测试集等几个概念。

这题的大致目的就是用10个自变量去做出诊断,肿瘤是否是良性的(M = malignant(恶性的), B = benign(良性的))。总的来说,数据集有357个良性肿瘤,212个恶性肿瘤,即共有569个数据点。

1. Use all mean features to construct a logistic regression model

因为原始数据集是包括了mean,var等等。这里只要求用mean部分的数据。所以我们就先提取了mean那部分数据集,然后还是用glm。

2. Then try to reduce the number of features from your last model, construct another regression model,and you will need to write down the equation of your logistic regression model(Tips: Logit P = α+β1X1+β2X2+..+βpXp)

我们可以把显著性的变量挑出来,再次构建一个新的logistic回归模型

回归模型为

3. Use proper test to test the difference between two models

用anova就可以了

4. You may split the data properly, use part of them to train your regression model and use another part to make predictions. Lastly, you may try to calculate the accuracy of your model.(Tips: To split the data, you can use the first 398 rows as training data, use the last 171 rows as prediction data.The predict function return a value between 0 and 1, 0.~0.5 belong to the first class, and 0.5~1 belong to second class in binary classification problems)

这样一套下来,大家可能会感觉有些奇怪。在题目1的时候,1代表出事故,0代表没出事故。然后 里面的p代表的是y=1的概率,即出事故的概率。这一切都很顺理成章。但是在题目2的时候,M代表恶性的,B代表良性的。那为啥 里面的p代表的就是M呢。或者说为啥M代表的就是1,B代表的就是0呢。

事实上,对于二元变量,glm会确定你的 响应变量 里面谁是 reference level 。或者说,会确定谁是那个 0 。那么,glm是怎么确定的呢。

通过上面的讲述,我们就发现了B是reference level,即是0。而M是对立的那个level,即是1。而我们logistic输出的是y=1的概率,即y=恶性肿瘤的概率。然后也刚好对应的我们前面的

只有y=M的概率足够大,才定义为M。这里我们设定的 足够大 是0.5。你也可以认为大于0.9才算出是M,这样结果就会不太一样。

我们也可以把我们的响应变量直接变成0和1

那么,我们该如果更改我们的reference level呢,一种方法我觉得应该可以是像上面那样,响应变量直接变成0和1,非常直观,但个人觉得不太符合逻辑……。另一种就是下面那样

参考文章

https://stats.stackexchange.com/questions/207427/confused-with-the-reference-level-in-logistic-regression-in-r

https://stackoverflow.com/questions/17772775/change-reference-group-using-glm-with-binomial-family

https://stackoverflow.com/questions/23282048/logistic-regression-defining-reference-level-in-r



  • 鎴戞槸1994骞寸敓鐨,鎴戝彲浠ユ壘鍝嚑骞村嚭鐢熺殑濂虫湅鍙?
    绛旓細浣犳槸1994骞村嚭鐢熺殑锛岀敓鑲栧睘鐙楃殑鍚э紝鍝勾鍑虹敓鐨勮鐪嬩綘浠殑缂樺垎浜嗭紝濂虫湅鍙嬬殑璇濓紝浣犲彲浠ユ牴鎹笅闈㈠崄浜岀敓鑲栫殑鎬荤粨锛屽幓鏂熼厡涓:灞炵嫍鐢峰拰灞為紶濂筹細姣旇緝鐞嗘兂锛岄紶鐨勬ф牸鏄瘮杈冩俯椤虹殑锛屼細浣跨嫍瑙夊緱鐖辨儏鍜屽濮诲厖婊℃俯鎯呫傚睘鐙楃敺鍜屽睘鐗涘コ锛氱浉澶勪笉澶垢绂忥紝杩欒姹傚瀛愯兘瀹夊垎瀹堝繁锛屽澶氭媴褰撳鍔$悙浜嬨傚睘鐙楃敺鍜屽睘铏庡コ锛...
  • 璺濂虫湅鍙璇存墍鏈夊コ浜洪兘瑕佺敓瀛╁瓙,涓轰粈涔堝ス浼氱敓姘?
    绛旓細閭f牱鐨勫洖绛斿お绮楁毚銆濂虫湅鍙瑙夊緱銆傚鏋滃ス涓嶆兂瑕佸瀛愩備綘浼氱矖鏆寸殑銆傝浠栧繀椤昏瀛╁瓙涓嶇劧鐨勮瘽銆傚氨浼氱壒鍒矖椴佺殑瀵瑰緟鑷繁銆傚コ鏈嬪弸鍥犱负杩欎簺鎯虫硶鎵嶇敓姘旂殑銆
  • 鏃犳満鐜鏄惁灞炰簬鐢熷懡绯荤粺?鏃犳満鐜鍖呮嫭浜庢煇涓鐢熷懡绯荤粺缁撴瀯灞傛涓,鏄 ...
    绛旓細鏃犳満鐜涓嶅睘浜庣敓鍛界郴缁熴備笉鑳借鏄庣敓鍛界郴缁熷寘鎷棤鏈虹幆澧冿紝鑰屼粠姝ゅ彲鎺ㄥ嚭鐨勭悊璁猴細鐢熷懡绯荤粺涓嶅寘鎷梾姣掋傚師鍥犲涓嬶細鏃犳満鐜鏄敓鎬佺郴缁熺殑闈炵敓鐗╃粍鎴愰儴鍒嗭紝鍖呭惈闃冲厜浠ュ強鍏跺畠鎵鏈夋瀯鎴愮敓鎬佺郴缁熺殑鍩虹鐗╄川锛 姘淬佹棤鏈虹洂銆佺┖姘斻 鏈夋満璐ㄣ佸博鐭崇瓑銆傝岀敓鍛界郴缁熸槸鑳藉鐙珛瀹屾垚鐢熷懡娲诲姩鐨勭郴缁熸墠鍙敓鍛界郴缁熴傛棤鏈虹幆澧冧笉鑳藉鐙珛...
  • 鍏充簬Sunper Juniore鎵鏈璧勬枡,瑕佹渶鍏ㄧ殑!
    绛旓細灏辨槸杩欐牱姣濂崇敓杩樿璁ょ湡鍙埍鐨勬櫉鏁忓眳鐒舵槸涓涓腑鍥芥鏈殑鐑》鍒嗗瓙銆傛櫉鏁忓緢鏃╀究瀛︿範涓浗妫掓湳,鍦ㄦ儏涔︿互鍙婃儏鏅墽涓殑甯呮皵浜浉,鍔熷か灏戝勾鐨勬ā鏍疯鎵鏈変汉閮瀵浠栧埉鐩浉鐪嬨傛櫉鏁忓枩鐖卞湪鑷繁鐨凜Y鍜屾瓕杩蜂滑鍒嗕韩蹇冩儏,姣忔閮藉彧鎶婂紑蹇冪殑浜嬫儏鍛婅瘔澶у,浠庢潵涓嶅啓浼ゅ績闅捐繃鐨勪簨,鍝曟槸鍙椾簡鑻︾疮涔熸绘槸寮蹇冨湴鍜屾瓕杩蜂滑璇粹滄病鍏崇郴鈥,鐒跺悗...
  • 濡備綍鍐欎竴浠藉鐢熺粺涓涔璧勬枡鐨勯氱煡?
    绛旓細鍐欎綔鎬濊矾锛氬憡璇夊闀匡紝涓轰簡鎻愰珮瀛╁瓙鐨勬垚缁╋紝闇瑕佽喘涔璧勬枡锛屽鏋滄兂缁熶竴涔帮紝鎸夌収鑰佸笀瑕佹眰鍘诲仛銆傛妸閽辩殑缁熶竴浜ょ粰瀹堕暱鏌愭煇鏌愩傞氱煡鑼冩枃 鍚勪綅瀹堕暱鎮ㄤ滑濂斤細涓轰簡瀛╁瓙鏇存湁鏁堝湴瀛︿範鐭ヨ瘑锛屾彁楂樻垚缁╋紝鐫d績瀛╁瓙鎴愰暱锛岀粡杩囧濮斾細涓鑷村晢璁紝瑙夊緱XX杈呭涔瀵瀛╁瓙澶ц剳涓庤鐭ュ緢鏈夌泭澶勶紝甯屾湜鍚勪綅瀹堕暱缁熶竴璐拱銆傝》蹇冩劅璋㈠悇浣嶅闀跨殑鐞嗚В...
  • 濂虫湅鍙鐢熸棩鍙戝灏戠孩鍖,濂虫ф湅鍙鐢熸棩绾㈠寘鍙戝灏戞暟瀛楁瘮杈冨ソ
    绛旓細濂虫湅鍙嬬敓鏃ュ彂澶氬皯绾㈠寘 鏃犺鏄浜鸿繃鐢熸棩杩樻槸杩囩敓鏃ワ紝瀹炲疄鍦ㄥ湪鐨勭孩鍖呴兘鏄緢濂界殑閫夋嫨銆傜孩鍖呯殑閲戦鏍规嵁涓汉缁忔祹鎵垮彈鑳藉姏鑰屽畾锛屽湪杩欎釜鍓嶆彁涓嬮夋嫨涓涓悏绁ユ暟瀛椾綔涓虹敓鏃ョ孩鍖呴噾棰濆氨寰堜笉閿欍傝繃鐢熸棩缁欏コ鏈嬪弸鍙戠孩鍖呫5.20銆佲斺旀垜鐖变綘銆傚コ鏈嬪弸鐢熸棩閫佺ぜ鐗╁拰绾㈠寘銆20.13銆佲斺旂埍浣犱竴鐢熴傚コ鏈嬪弸杩囩敓鏃ュ彂绾㈠寘澶氬皯...
  • 涓滄柟绁炶捣姣忎釜浜虹殑涓汉璧勬枡
    绛旓細鏈潵鎯崇敓鍑犱釜瀛╁瓙:鍙敓涓涓ソ濂界殑鍏汇傝鎴愪负澶т汉鐨勬椂鍊欐槸浠楹兼椂鍊:鏈変簡寮熷紵鍚庛傚疂鐗1鍙:瀹跺涵銆傛兂鍘荤殑鏃呮父鍦:闈炴床銆傚枩娆㈢┛鐨勮。鏈:骞冲嚒鐨勪紤闂叉湇鍐嶅甫涓婂附瀛愩傛兂缁欏コ鏈嬪弸鐨勭ぜ鐗:闈炲父鍒烘縺鐨勬柟娉曠粰濂虫湅鏃犳硶蹇樿鐨勬渶妫掔殑绀肩墿銆傛湁浜嗗コ鏈嬪弸鍚庝竴瀹氭兂鍋氱殑浜:鏃呰銆傜粰濂虫湅鍙嬪憡鐧:鑷繁鍐欑殑姝岀敤閽㈢惔寮圭粰濂瑰惉銆傞噸鏂板嚭鐢...
  • 濮滅帀闃崇殑涓汉璧勬枡
    绛旓細銆庢渶璁ㄥ帉鐨勪簨銆:鏃犱腑鐢熸湁鐨勪簨鎯 銆庢渶鎯崇殑鐞嗘兂銆:璁╂墍鏈夊枩娆㈠惉鑷繁鐨勬瓕鏇茬殑鏈嬪弸姘歌繙鑳藉惉鍒拌嚜宸辩殑鏂版瓕 鍘熷垱姝屾洸鍒楄〃 01.蹇樹笉鎺夌殑浼 02.鐥涘交蹇冩墘 03.鎴戞兂鎵句釜濂虫湅鍙 04.鐖辨儏鎯圭殑绁 05.涓簡骞哥鐨勭尓 06.闈犲哺 07.鐮寸鐨勯厭鏉 08.涓北濮戝 09.鐖辫疆鍥 10.鐪熷疄涓鐐 11.浣犲垢绂忎綘蹇箰 12.杞洖涓栫晫鏈変綘鏈夋垜 ...
  • 缁欏コ鐢鍙戠敓鏃ョ孩鍖呭彂澶氬皯鍚堥,濂虫湅鍙鐢熸棩绾㈠寘鍙戝灏戝悎閫?
    绛旓細15.73銆佲斺斾竴寰鎯呮繁銆濂崇敓鎰挎剰鎶婄敓鏃ュ憡璇変綘銆19.20銆佲斺旀案涔呯埍浣犮缁欏コ绾㈠寘涔板ザ鑼跺灏戝悎閫傘13.14銆.40銆佲斺斾竴鐢熶竴涓栥33.44銆佲斺鐢熺敓涓栦笘銆66.66鈥斺旈『椤洪『椤恒佷竴甯嗛椤恒傚枩娆㈢殑濂崇敓杩囩敓鏃ュ彂澶氬皯绾㈠寘鍚堥傘99.99鈥斺旈暱闀夸箙涔呫濂虫湅鍙鐢熸棩娴极鐭彞銆1.68銆16.80銆佲斺斾竴璺彂銆1.78銆17...
  • 灏忓紵鎴戜粖骞磋缁撳,鎯宠缁撹繃濠氱殑鍝ヤ滑濮愪滑甯繖,鏈汉鍦ㄥ崡浜,甯屾湜涓嶈澶嶅埗...
    绛旓細濠氱罕鐓ф垜鏄湪鍦h拏濞,鍜屽▍鑿插搴嗘濂藉湪涓璧,闈犲ぇ琛屽閭h竟,鎷嶇殑涓嶉敊,鎴戞媿鐨勫ソ鍍忔槸4000澶氱殑濂楃郴,涓嶈繃鎴戞湁璁よ瘑鐨勪汉,缁欐垜鐨勪紭鎯犱环! 杩樻湁鐨勫氨鏄粏鑺備笂鐨勪笢瑗夸簡,鍍忓杞﹀晩浠涔堢殑浜ょ粰濠氬簡鍏徃瑙e喅灏卞ソ,鍏朵粬涓嶆噦鐨勫搴嗗叕鍙镐篃浼氬憡璇変綘鐨勩 鏈鍚,閭f柟闈㈢殑浜嬫儏鍙兘浣犺嚜宸辫В鍐充簡,澶氱湅浜璧勬枡澶氫簡瑙d綘濂虫湅鍙,鎱㈡參鐨勫涔犲惂!
  • 扩展阅读:给女友写一封真心的信 ... 让对象感动到哭的长文 ... 让女孩感动到哭的情书 ... 女人怕生孩子怎么开导 ... 让女朋友感动到哭的话 ... 给对象安全感的长文 ... 女生为什么害怕生孩子 ... 女朋友怕怀孕很焦虑怎么办 ... 找女朋友的基本要求 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网