stata怎样定义虚拟变量? stata怎样定义虚拟变量

stata\u4e2d\u5982\u4f55\u5b9a\u4e49\u865a\u62df\u53d8\u91cf

1\u3001\u7528list make weight \u663e\u793a\u6570\u636e\u3002

2\u3001\u5c1d\u8bd5\u6267\u884c gen weight=weight/1000\uff0c\u7cfb\u7edf\u63d0\u793a\u53d8\u91cf\u5df2\u5b58\u5728\u3002

3\u3001\u5982\u679cforeign==0\uff0c\u5c06price\u63d0\u9ad85%\uff0c\u5982\u679cforeign==1\uff0c\u5c06price\u63d0\u9ad810%\u3002 gen predprice=1.05*price if foreign==0 \u548creplace predprice=1.1*price if foreign==1 \u518d\u663e\u793a\u7ed3\u679clist make foreign price predprice\u3002

4\u3001list\u4e2dnolabel\u53c2\u6570\u7684\u4f7f\u7528\u3002list make foreign price predprice,nobel\u3002

5\u3001gen where ="D" if foreign=="Domestic":origin replace where ="F" if foreign=="Foreign":origin\u5982\u679cforeign\u7684\u503c\u4e3adomestic\u5219where\u7684\u503c\u4e3aD\uff0c\u5426\u5219where\u7684\u503c\u4e3aF\u3002

\u4f8b\u5982\uff0c\u6709\u4e00\u4e32\u5e74\u4efd\u6570\u636e
id year
001 2001
010 2002

100 2003

110 2004

111 2005

\u8f93\u5165\u547d\u4ee4
tab year, gen(dummy_year)
\u8fd9\u6837\u5c31\u81ea\u52a8\u751f\u6210\u4e862001\u81f32005\u7684\u4e94\u4e2a\u865a\u62df\u53d8\u91cf

\u56de\u5f52\u547d\u4ee4
reg y x dummy*
dummy* \u7b49\u540c\u4e8e2001\u81f32005\u7684\u4e94\u4e2a\u865a\u62df\u53d8\u91cf\uff0creg\u547d\u4ee4\u4f1a\u81ea\u52a8\u5254\u9664\u4e00\u4e2a\u4ee5\u4fdd\u8bc1\u4e0d\u51fa\u73b0\u5b8c\u5168\u5171\u7ebf\u6027\u95ee\u9898\u3002

1、用list make weight 显示数据。

2、尝试执行 gen weight=weight/1000,系统提示变量已存在。

3、如果foreign==0,将price提高5%,如果foreign==1,将price提高10%。   gen predprice=1.05*price if foreign==0 和replace predprice=1.1*price if foreign==1   再显示结果list make foreign price predprice。

4、list中nolabel参数的使用。list make foreign price predprice,nobel。

5、gen where ="D" if foreign=="Domestic":origin replace where ="F" if foreign=="Foreign":origin如果foreign的值为domestic则where的值为D,否则where的值为F。



什么是哑变量?
哑变量或虚拟变量,是人为设定的用于将分类变量引入回归模型中的方法。
为什么要使用哑变量
在回归分析中,自变量X既可以是定量数据也可以定类数据。回归分析计算时是将所有自变量X视为数字,但当数据为定类数据时,此时数字代表类别,数字大小本身没有比较意义。因此,这类数据在做回归分析时,需要设置成哑变量才能纳入回归分析正确分析数据。
哪些分析方法会使用到哑变量
通常情况下,回归分析,逐步回归,分层回归,Logistic回归,PLS回归等这类影响关系研究的方法时,才可能涉及到虚拟变量设置。其它分析方法并不会涉及。
如何使用哑变量
用一个例子说明:研究性别和工龄对基本工资的影响情况。
工龄是定量数据;性别为二分类数据,因而分析时性别不能直接放入回归模型,正确做法是将变量转化成取值为1和0的哑变量。

性别分为两类,因而需要设置2个虚拟变量(2列),分别表示男性和女性两个类别。
如果是男性,‘性别_男’虚拟变量取值为1,‘性别_女’虚拟变量取值为0。如果是女性则相反。
当变量分类超过两类时,也是类似的处理方式,在回归分析前将下面的“专业”类别转化为虚拟变量,结果如下图所示:

理科类取值=1代表专业为理科,0代表非理科
文科类取值=1代表专业为文科,0代表非文科
工科类取值=1代表专业为工科,0代表非工科
操作步骤:
SPSSAU可直接一步生成虚拟变量,具体操作如下:

分析时,要注意少放入一个虚拟变量。如果分为两类就放入一个虚拟变量,三类就放入两个,以此类推。

原因在于虚拟变量包括数字0和1;0是对比参考项。如果2个类别都放入了,就没有参考类别了。
如何解释分析结果

SPSSAU回归分析结果
由上表可知,回归模型通过F检验,性别_男一项P<0.01,说明性别对基础工资确实存在显著的影响关系。
模型公式为:月基本工资=2403.834 + 42.659*工龄 + 1377.873*性别_男。
当“性别_男”取值为1表示男性的月工资回归方程,0表示女性的月工资回归方程。回归系数值为1377.873,因此说明相同工龄下,男性的月基本工资比女性多1377.88元。
相反,放入的分析项若为性别_女,回归系数值应为-1377.873,代表同工龄的条件下,女性的月基本工资比男性少1377.88元。
其他说明
将虚拟变量放入回归中,一定要少放一个虚拟变量,否则系统会提示存在多重共线性问题。
SPSSAU会默认生成标题,设置完成后可进行‘标题修改’。

假设你在excel中有个变量是性别,其中已经表明每个观测值是male or female。

gen a=.
replace a=1 if gender==male
replace a=0 if gender==female

那么a就是虚拟变量啦

如果你的gender variable中导入之后已经是num variable了,那么你tab gender能看到具体male or female等于几,之后replace也可以。

stata我来帮你,我替别人做这类的数据分析蛮多的

  • Stata濡備綍鐢熸垚铏氭嫙鍙橀噺?
    绛旓細鍦Stata涓鐢熸垚铏氭嫙鍙橀噺锛堝張绉版寚绀哄彉閲忔垨鍝戝彉閲锛夊彲浠ラ氳繃澶氱鏂瑰紡瀹屾垚锛岃繖浜涘彉閲忛氬父鐢ㄤ簬琛ㄧず鍒嗙被鏁版嵁鐨勪簩杩涘埗缂栫爜锛屽叾涓1鈥濊〃绀烘煇涓被鍒殑瀛樺湪锛屸0鈥濊〃绀轰笉瀛樺湪銆備互涓嬫槸鍑犵甯歌鐨勬柟娉曟潵鍦⊿tata涓敓鎴愯櫄鎷熷彉閲忥細1. 浣跨敤generate鍜宺eplace鍛戒护 濡傛灉鍒嗙被鍙橀噺鐨勭被鍒暟閲忚緝灏戯紝鍙互鎵嬪姩涓烘瘡涓被鍒垱寤轰竴涓櫄鎷...
  • stata涓浣曞畾涔夎櫄鎷熷彉閲
    绛旓細1銆佺敤list make weight 鏄剧ず鏁版嵁銆2銆佸皾璇曟墽琛 gen weight=weight/1000锛岀郴缁熸彁绀鍙橀噺宸插瓨鍦ㄣ3銆佸鏋渇oreign==0锛屽皢price鎻愰珮5%锛屽鏋渇oreign==1锛屽皢price鎻愰珮10%銆 gen predprice=1.05*price if foreign==0 鍜宺eplace predprice=1.1*price if foreign==1 鍐嶆樉绀虹粨鏋渓ist make foreign pri...
  • Stata閲岄潰鍏充簬铏氭嫙鍙橀噺鐨勮瀹,鏄笉鏄湁4涓鎯呭喌灏辫缃3涓狣ummy?
    绛旓細鍦Stata涓鍒涘缓铏氭嫙鍙橀噺锛岄氬父閬靛惊鐨勬槸鈥滆繛缁師鍒欌濓紙鍗筹紝濡傛灉绫诲埆鏈塏涓笉鍚岀殑鍊硷紝閭d箞浣犻渶瑕佸垱寤篘-1涓櫄鎷熷彉閲忥級銆傛墍浠ワ紝濡傛灉鏈変竴涓彉閲"seed"鏈夊洓涓笉鍚岀殑绫诲埆锛屼綘闇瑕佸垱寤轰笁涓櫄鎷熷彉閲忋備互涓嬫槸姝g‘鐨凷tata浠g爜绀轰緥锛歚``stata 鍋囧畾鍙橀噺 seed 鏈夊洓涓笉鍚岀殑鍊 gen seed1 = seed == "Value1"repl...
  • 濡備綍鍦Stata涓鐢熸垚骞翠唤鐨铏氭嫙鍙橀噺?
    绛旓細1銆佺‘淇濅綘鐨勬暟鎹泦涓寘鍚〃绀哄勾浠界殑鍙橀噺銆傚亣璁捐鍙橀噺鍚嶄负 "year"锛屽畠搴旇鏄竴涓暟鍊煎瀷鍙橀噺锛屼互琛ㄧず骞翠唤锛堜緥濡1990銆1991绛夛級銆2銆佹墦寮 Stata 杞欢锛屽苟杩涘叆鍛戒护绐楀彛銆3銆佽緭鍏ヤ互涓嬪懡浠ゆ潵鐢熸垚铏氭嫙鍙橀噺锛氳繖灏嗗垱寤轰竴涓悕涓 "year_dummy" 鐨勬柊鍙橀噺锛屽苟灏嗗叾鍒濆鍖栦负0銆傜劧鍚庯紝浣跨敤 "replace" 鍛戒护灏嗙壒瀹氬勾...
  • stata鎬庢牱瀹氫箟铏氭嫙鍙橀噺?
    绛旓細a=.\x0d\x0areplace a=1 if gender==male\x0d\x0areplace a=0 if gender==female\x0d\x0a\x0d\x0a閭d箞a灏辨槸铏氭嫙鍙橀噺鍟x0d\x0a\x0d\x0a濡傛灉浣犵殑gender variable涓鍏ヤ箣鍚庡凡缁忔槸num variable浜嗭紝閭d箞浣爐ab gender鑳界湅鍒板叿浣搈ale or female绛変簬鍑狅紝涔嬪悗replace涔熷彲浠ャ
  • 濡備綍鐢STATA鐢熸垚铏氭嫙鍙橀噺
    绛旓細gen(ros)灏卞彲浠ヤ骇鐢铏氭嫙鍙橀噺锛屽彉閲忓悕绉颁负ros_1 ros_2 ros_3 绛夌瓑 鎸夌収浣犵殑瑕佹眰锛屽鏋渞os鍙橀噺娌℃湁涓嶅洖绛斿氨鏄.鈥濈殑璇濓紝搴旇鏄 gen rosneg=.replace rosneg=1 if ros<0 replace rosneg=0 if ros>=0 濡傛灉ros=.锛屽氨瑕佺湅浣犵殑澶勭悊锛屾槸涓嶆槸灏嗙己鐪佸煎幓鎺 灏辨槸replace rosneg=0 if ros>=0&...
  • 宸茬粡鏄铏氭嫙鍙橀噺杩橀渶瑕乮.鍚
    绛旓細闇瑕Stata閲岀殑铏氭嫙鍙橀噺锛屼篃鍙鍝戝彉閲鍜岀鏁g壒寰佺紪鐮侊紝鍙敤鏉ヨ〃绀哄垎绫诲彉閲忋侀潪鏁伴噺鍥犵礌鍙兘浜х敓鐨勫奖鍝嶃STATA鐨勮缃渶绠鍗曪紝鎵撳嚭鍛戒护鏃跺湪鍙橀噺鍚嶅墠鍔"i."濡傛灉瑕佸皢鏂板缓铏氭嫙鍙橀噺锛屽垯鍙敤xi鍛戒护銆傝櫄鎷熷彉閲 ( Dummy Variables) 鍙堢О铏氳鍙橀噺銆佸悕涔夊彉閲忔垨鍝戝彉閲忥紝鐢ㄤ互鍙嶆槧璐ㄧ殑灞炴х殑涓涓汉宸ュ彉閲忥紝鏄噺鍖栦簡鐨...
  • Stata閲岄潰鍏充簬铏氭嫙鍙橀噺鐨勮瀹,鏄笉鏄湁4涓鎯呭喌灏辫缃3涓狣ummy?
    绛旓細浣犵殑绉嶅瓙鍨嬪彿搴旇鏄痵eed鍚э紝浣犵殑dummy鍙互杩欐牱鍋氾細codebook seed gen seed1=1 recode seed1 1=0 if seed~=1 gen seed2=1 recode seed2 1=0 if seed~=2 gen seed3=1 recode seed3 1=0 if seed~=3 gen seed4=1 recode seed4 1=0 if seed~=4 ~=浠h〃涓嶇瓑浜 ...
  • 姹傛暀stata铏氭嫙鍙橀噺寤虹珛xi鍛戒护
    绛旓細搴斾负鍦stata涓锛宨.year 杩欑鐢熸垚鍙橀噺鐨勬柟寮忓彧瀵逛笌鍗曚竴鍙橀噺鏈夋晥锛岃屼笖鍦ㄥ洖褰掓柟绋嬩箣涓笉鑳藉鏈夎繍绠楃鍙枫備綘鍙互璇曚竴涓嬩娇鐢╯tata鑷甫鐨勮嚜鍔ㄧ敓鎴愪氦鍙夊彉閲忕殑鍛戒护锛孖nteraction expansion锛屾垨鑰呮槸浣跨敤 Data > Create or change data > Other variable-creation commands > Interaction expansion 鏉ョ敓鎴愪氦鍙夊彉閲 ...
  • stata闈㈡澘鏁版嵁鍥炲綊涓涓氱殑铏氭嫙鍙橀噺鎬庝箞璁剧疆
    绛旓細缁撴灉鐨勫墠涓よ琛ㄧず妯″瀷鐨勭被鍒,LZ閲囩敤鐨勪负randomeffect闅忔満妯″瀷,鎴潰鍙橀噺锛歱rovince,鏍锋湰鏁扮洰310.缇ょ粍鏁扮洰31,涔熷氨鏄瘡缁10涓娴嬪.3-5琛岃〃绀烘ā鍨嬬殑鎷熷悎浼樺害,鍒嗗埆涓簑ithin,between,overall,缁勫唴,缁勯棿,鎬讳綋涓変釜灞傛.6-7琛岃〃绀洪拡瀵瑰弬鏁拌仈鍚堟楠岀殑wald chi2妫楠屽拰Pvalue,p=0.000琛ㄧず鍙傛暟鏁翠綋涓婄伆甯告樉钁.8...
  • 扩展阅读:stata multimport ... stata append ... stata交互结果解读 ... stata虚拟变量参照组 ... stata怎么对男女赋值01 ... 虚拟变量交互项回归 ... stata中如何做交互项回归 ... stata将地区分为东中西部 ... stata中变量已经被定义 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网