2.4 含有定性变量的回归模型
在实际问题的研究中,经常会碰到一些非数值型变量,如分类变量:性别、学历、年级等。我们经常会考虑这些分类变量对研究结果的影响。通常也把这些分类变量称为定性变量。定性变量的回归在流行病学的回归中研究比较多。常用的情况是探索某类疾病的危险程度,根据危险因素预测某类疾病发生的概率等。
例2.6 某研究所人员的工资分析。
某研究所的职工工资如表2-20所示,请建立一个模型来分析该研究所的职工兼职管理、职称、工作年限与他们的工资之间的关系。
表2-20 某研究所职工的工资情况
分析:通过建模来分析薪金和工作年限、职称、是否担任管理职务等的关系。薪金和工作年限是数值型变量。是否担任管理是用是否的形式。可以通过定义虚拟变量的形式实现:也就是用1代表担任管理、0代表不担任管理。职称是分类变量,也可以用虚拟变量表示。因为职称分为初级、中级、副高级和高级四个等级,可以用3个虚拟变量完成。
变量假设:,,,x4=,x5代表工作年限,y代表工资。由上述假设可知,当变量x2=x3=x4=0时,代表初级职。
回归模型假设:
由变量假设,将数据重新整理为表2-21。
表2-21 整理后的某研究所职工工资情况
续表
首先对数据进行初步分析,看工资是否有奇异值,画出编号与工资的散点图2-11。
由图2-12可知存在一个奇异点,对照表2-22可知编号为13号的工资明显高于其他数据非常多,不适于做回归分析,因此去掉该数据。
图2-12 编号与工资的散点
由模型汇总表2-22可知,R2=0.941,调整后的R2=0.857,p>0.001,从这几个指标看,模型整体可用。由模型系数表2-23可以看出,几个系数(i=0,1,2,3,4,5)均满足p<0.05,各系数均通过了检验。同时,所有系数95%的置信区间的值均不包含0点,是可以使用的。
表2-22 模型汇总
注:a预测变量:(常量),x5,x2,x4,x3,x1。
表2-23 模型系数a
注:a. 因变量:y。
回归模型:
模型的含义:一个不担任管理职务的初级职称的基本工资为8646.965元,在其他因素都不变的情况下,承担管理工作,工资增加2131.814元,其他因素都相同的前提下,中级职称比初级职称的工资多1489.231元,副高比初级职称工资高2981.754元,正高比初级职称的工作多6083.264元,其他因素都不变的情况下,工龄增加一年工资提高57.779元。定性变量作为因变量的回归通常称为Logistic回归,此时的因变量可以是二分类的,也可以是多分类的,实际问题中以二分类变量最常用。详细可以参考文献【2】。