统计学(16)-什么是虚拟变量/哑变量

此部分对我来说,还是比较难于理解的。我只做简单介绍,后续如果有新的体悟,会再次更新。
定义: 虚拟变量(Dummy Variable) 也叫哑变量,它算不上一种变量类型,确切地说,是将多分类变量转换为二分类变量的一种形式。
Dummy Variable 的意思就是假的变量,不是真实的变量。(厉害吧!)

例1:
某研究者检测了4 种社区类型的S02 水平。研究者欲分析社区类型是否与S02水平有关系,或者说,不同社区类型的S02 水平是否不同。

所谓虚拟变量,就是把原来的一个多分类变量转换为多个二分类变量,总的来说,就是,如果多分类变量有K 个类别,则可以转换为k-1个二分类变量。如变量x为赋值1、2 、3 、4的四分类变量,就可以转换为3个赋值为0和1的二分类变量。(现在有点理解,其实就是按照顺序进行的变化趋势,临近数值的分类)。

分类结果的解释一般是要有参照类别的。
比如我们说男性肺癌发生率高,暗含了"相对于女性”这样的参照; 50 岁以上人群冠心病发生率更高,暗含了"相对于50 岁以下人群”这样的参照。
没有参照,就没法说高或低。比如80%,是高还是低呢?那要看是和70%还是90%比。

当我们把k个类别的多分类变量转换为k-1个二分类变量后,每个二分类变量表示相对参照类的大小。例如,多分类变量x用1 、2 、3 、4 表示,我们设定以1 作为参照,那么生成的3个虚拟变量分别表示2 和1相比的大小、3 和1相比的大小、4 和1相比的大小。
通过生成虚拟变量,就把原来的一个系数变成了多个系数,这多个系数更详细地展示了自变量与因变量之间的关系,在自变量与因变量呈非线性关系的时候,这尤其重要。因为当你使用线性回归、Logistic 回归这些方法的时候,实际上已经默认自变量与因变量是线性关系了,你是不可能找出非线性关系的。

什么时候用虚拟变量?
虚拟变量主要用于多分类自变量与因变量是非线性关系的时候,如果多分类自变量与因变量已经是线性关系了,就没有必要用虚拟变量了。因为此时线性关系已经可以很好地刻画出二者的关系了。

虚拟变量有什么优点和缺点?
优点:当多分类自变量与因变量的关系不是线性关系的时候,虚拟变量可以更真实地展示二者的关系。
缺点:把一个多分类变量转换为虚拟变量后,自变量数目会增多,如一个四分类变量就会生成3个虚拟变量。如果你的样本量不是很大,那么自变量的增加会导致估计结果不稳定。
设置虚拟变量时如何指定参照类?
主要根据专业和研究目的。如年龄,如果你想了解高年龄组与低年龄组的比较情况,那就把低年龄组设为参照。 一般尽量把危险低的设为参照组,如在社区类型中,把对照区(社区类型=0) 设为参照。
这个危险低的理解,是不是就是说熵小呢?以后再解决。
如果虚拟变量的结果不一致该怎么办?
如果产生了3个虚拟变量,其中1个虚拟变量的P<0.05, 另外2 个虚拟变量的P>0.05, 那么你在报告结果时仍需要把这3个虚拟变量的结果都展示出来,而不是只展示有统计学意义的那一个。在列方程时也需要把3个虚拟变量的系数都列在方程中。(这个看不懂!)



  • 涓浠涔瑕铏氭嫙鑷鍙橀噺?
    绛旓細3. 褰撹嚜鍙橀噺涓巠鐨勫叧绯讳笉鏄庣‘鏃讹紝浣跨敤铏氭嫙鍙橀噺鍙噺灏戣宸傚鏋滆櫄鎷熷彉閲忛棿鐨勬瘮鍊硷紙OR锛夋樉绀虹嚎鎬у叧绯伙紝鍘熷鐨勫垎绫诲彲浠ョ洿鎺ョ敤浜庡垎鏋愩4. 铏氭嫙鍙橀噺鍦╨ogistic鍥炲綊涓潪甯告湁鐢紝鍙互甯姪鍙戠幇闅愯棌鐨勪俊鎭5. 鏍锋湰閲忕殑浼拌鍦ㄧ爺绌朵腑闈炲父閲嶈锛屽挨鍏舵槸鍦缁熻瀛瑕佹眰楂樼殑鍦哄悎銆傜畝鍗曠殑鐮旂┒鏈夋垚鐔熺殑鍏紡鏉ヤ及绠楁牱鏈噺锛屼絾...
  • 鐧借瘽缁熻---鍩虹绡囪涔︾瑪璁
    绛旓細(4)铏氭嫙鍙橀噺鐨勫弬鐓ч噺鐨勮缃富椤垫牴鎹爺绌剁洰鐨勫拰涓撲笟,浣嗚娉ㄦ剰鍙傜収缁勭殑鏍锋湰閲忎笉瑕佸お灏,鍚﹀垯浼氫娇浼拌缁撴灉涓嶇ǔ瀹氥 (5)濡傛灉鎴戜滑鐨勮櫄鎷熷彉閲忕殑缁撴灉涓嶄竴鑷,搴旇鎶婃墍鏈夌殑铏氭嫙鍙橀噺鐨勭粨鏋滃睍绀哄嚭鏉,鑰屼笉鏄彧灞曠ず鏈缁熻瀛鎰忎箟鐨勫摢涓涓傚畾閲忚祫鏂欑殑缁熻鎻忚堪鎸囨爣:  鍧囨暟鍜屼腑浣嶆暟鈥斺斿睍绀烘暟鎹殑闆嗕腑鎯呭喌 鏍囧噯宸拰鍥涘垎浣嶆暟闂...
  • 涓綋涓績鍖栨硶鏄櫄鎷熷彉閲鍚
    绛旓細涓嶆槸銆1銆佷釜浣撲腑蹇冨寲娉曟槸涓绉嶅父鐢ㄧ殑鏁版嵁鏍囧噯鍖栨柟娉曪紝鍦缁熻瀛鍜屾暟鎹垎鏋愪腑锛屽畠鍙互鐢ㄦ潵娑堥櫎鍙橀噺涔嬮棿鐨勯噺绾插樊寮傦紝浣垮緱涓嶅悓鍙橀噺涔嬮棿鍙互杩涜姣旇緝鍜屽垎鏋愩2銆佽櫄鎷熷彉閲忔槸涓绉嶇敤浜庤〃绀哄垎绫诲彉閲忕殑鎸囩ず鍙橀噺锛岃櫄鎷熷彉閲忓父鐢ㄤ簬鍥炲綊鍒嗘瀽涓紝浠ユ崟鎹夊垎绫诲彉閲忕殑褰卞搷銆備釜浣撲腑蹇冨寲娉曚笉鏄櫄鎷熷彉閲锛岃櫄鎷熷彉閲忓拰涓綋涓績鍖栨硶閮...
  • 璁¢噺缁忔祹瀛︿腑搴旂敤鐨勬暟鎹被鍨嬫湁鍝簺
    绛旓細璁¢噺缁忔祹瀛︿腑搴旂敤鐨勬暟鎹被鍨嬶細鏃堕棿搴忓垪鏁版嵁銆侀潰鏉挎暟鎹佹埅闈㈡暟鎹铏氭嫙鍙橀噺鏁版嵁銆傛嫇灞曠煡璇嗭細涓銆佹椂闂村簭鍒楁暟鎹細鏃堕棿搴忓垪鏁版嵁鏄湪涓嶅悓鏃堕棿涓婃敹闆嗗埌鐨勬暟鎹紝杩欑被鏁版嵁鏄寜鏃堕棿椤哄簭鏀堕泦鍒扮殑锛岀敤浜庢墍鎻忚堪鐜拌薄闅忔椂闂村彉鍖栫殑鎯呭喌銆傝繖绫绘暟鎹弽鏄犱簡鏌愪竴浜嬬墿銆佺幇璞$瓑闅忔椂闂寸殑鍙樺寲鐘舵佹垨绋嬪害銆傚緢澶氳閲忕粡娴庡鐨勬ā鍨嬩篃鐢ㄥ埌...
  • 涓浠涔瑕铏氭嫙鑷鍙橀噺?
    绛旓細鎬讳箣锛铏氭嫙鍙橀噺鍦╨ogistic鍥炲綊鍒嗘瀽涓槸闈炲父鏈夊埄鐨勫伐鍏凤紝鍠勪簬鍒╃敤鍙互甯姪浣犳帰绱㈠嚭寰堝鏈夌敤鐨勪俊鎭傜粺璁$殑鍒嗘瀽绛栫暐鏄竴涓帰绱㈢殑杩囩▼锛屽彧瑕佺暀蹇冿紝浣犲氨浼氬彂鐜板湪鎺㈢储鏁版嵁鍏崇郴鐨勮繃绋嬩腑鍏呮弧浜嗕箰瓒o紝鍥犱负浣犺兘鍙戠幇鍒汉鎵鍙戠幇涓嶄簡鐨勯殣钘忕殑淇℃伅銆傚笇鏈涘ぇ瀹跺瀛︾偣缁熻鍒嗘瀽绛栫暐锛屾妸缁熻浣滀负涓绉嶈壓鏈紝鍦ㄥ垎鏋愭帰绱腑鎵惧埌涔愯叮...
  • 鎬ユユ!铏氭嫙鍙橀噺 鍔犳硶瑙勫垯 涔樻硶瑙勫垯 鑻辨枃瑕佹庝箞璇? 璋佽兘甯垜鎵句竴绡囪 ...
    绛旓細缁熻瀛 statistics 铏氭嫙鍙橀噺: virtual variable, dummy variable 鍔犳硶瑙勫垯 Rule of Addition If events A and B come from the same sample space, the probability that event A and/or event B occur is equal to the probability that event A occurs plus the probability that event B occurs ...
  • 浼缁熻瀛鐨勮繘鏉ュ晩?鍝ュ摜濮愬鏁戝懡鍟
    绛旓細鏃堕棿搴忓垪鏄悓涓缁熻鎸囨爣鐨勬暟鍊兼寜鍏跺彂鐢熺殑鏃堕棿鍏堝悗椤哄簭鎺掑垪鑰屾垚鐨勬暟鎹紝濡2001~2014骞村叏鍥界殑GDP鏁版嵁锛涢潰鏉挎暟鎹槸鍓嶉潰涓よ呯殑缁煎悎锛屾槸鏃堕棿搴忓垪涓婂彇澶氫釜鎴潰锛屽湪杩欎簺鎴潰涓婂悓鏃堕夊彇鏍锋湰瑙傛祴鍊兼墍鏋勬垚鐨勬牱鏈暟鎹紝濡2001~2014骞村叏鍥藉悇鐪佺殑GDP鏁版嵁鏄灏戙铏氭嫙鍙橀噺鏁版嵁鏄竴涓汉宸ュ彉閲忥紝鏈夌偣闅捐В閲婏紝鏄负浜嗗墧闄ゅ叾鍙橀噺...
  • 褰撴煇涓彉閲忓ぇ浜庡潎鍊间负1 灏忎簬鍧囧间负0 鍙互琚О涓铏氭嫙鍙橀噺涔
    绛旓細鍦ㄦ鐜囪鍜缁熻瀛涓紝鍗忔柟宸敤浜庤 閲忎袱涓鍙橀噺鐨勬讳綋璇樊銆傝屾柟宸槸鍗忔柟宸殑涓绉嶇壒娈婃儏鍐碉紝鍗冲綋涓や釜鍙橀噺鏄浉鍚岀殑鎯呭喌銆傛湡鏈涘煎垎鍒负E(X) = 渭 涓 E(Y) = 谓 鐨勪袱涓疄鏁伴殢鏈哄彉閲廥涓嶻涔嬮棿鐨勫崗鏂瑰樊瀹氫箟涓猴細COV(X锛孻)=E[(X-E(X))(Y-E(Y))]鍏朵腑锛孍鏄湡鏈涘笺傚畠涔熷彲浠ヨ〃绀轰负锛氱洿瑙備笂鏉ョ湅...
  • 璁¢噺缁忔祹瀛﹁冭瘯閲嶇偣
    绛旓細1銆佽垂閲屽笇(R.Frish)鏄粡娴庤閲忓鐨勪富瑕佸紑鎷撹呭拰濂犲熀浜恒 2銆佺粡娴庤閲忓涓庢暟鐞嗙粡娴庡鍜屾爲绔缁熻瀛鐨勫尯鍒殑鍏抽敭涔嬬偣鏄滅粡娴鍙橀噺鍏崇郴鐨勯殢鏈烘х壒寰佲濄 3銆佺粡娴庤閲忓璇嗕互鏁扮悊缁忔祹瀛﹀拰鏍戠珛缁熻瀛︿负鐞嗚鍩虹鍜屾柟娉曡鍩虹鐨勪氦鍙夌瀛︺傚畠浠ュ瑙傜粡娴庣郴缁熶腑鍏锋湁闅忔満鎬х壒寰佺殑缁忔祹鍏崇郴涓虹爺绌跺璞,鐢ㄦ暟瀛︽ā鍨嬫柟娉曟弿杩板叿浣撶殑缁忔祹...
  • 姹傚姪spss缁熻闂
    绛旓細鑷彉閲忔槸绂绘暎鐨勫挨鍏跺張浠呬粎鏄姞椤瑰苟涓嶈绱э紝鐩存帴璧嬪兼垚涓铏氭嫙鍙橀噺锛灏辨槸绂绘暎鐨勶級灏辫锛屼緥濡傜敺=1锛屽コ=0锛岃繘琛屽洖褰掓楠孫K灏辫浜嗐備絾鏄叧閿槸浣犵殑搴斿彉閲忥紝涔熷氨鏄綘璇寸殑蹇冪悊闂姹傚姪鎰忔効濡傛灉鏄鏁g殑锛岃屼笖濡傛灉杩樻湁绾︽潫锛岄偅灏辫鏍规嵁鍒嗗竷鎯呭喌鍜岀害鏉熸儏鍐佃冪巼鏄敤Logit, Probit鎴栬匱obit杩欐牱鐨勫洖褰掓ā鍨嬩簡銆
  • 扩展阅读:功能计算器 ... 小孩学编程的弊端 ... 大脑开发20%会怎么样 ... 全能计算器 ... 为什么不建议小孩学编程 ... 学编程的十大忠告 ... python和c++学哪个好 ... 为什么不建议学数控 ... 为什么不建议孩子学绘画 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网