一、异方差性
1、
定义:对于线性回归模型,同方差若为常数则对于不同的样本点,随机 误差项的离散程度是相同的,但如果同方差非常数,则称模型出现了异 方差性。
2、 异方差性出现的原因:
i. ii. iii.
模型中遗漏了影响逐渐增大的因素。(假性) 模型函数形式的设定误差。(假性)
随机因素的影响。截面数据中,波动(不确定性)与经济规模的比 例关系。时间序列中,波动的系统变化。
3、 异方差性的影响:
i.
最小二乘估计不再是有效估计。随机误差项为异方差时,OLS估计 仍然是无偏估计,但不再具有最小方差的特性;即存在其他的参数 估计方法,其估计误差将小于OLS估计的误差。
ii.
无法正确佔计系数的标准误差。参数佔汁的标准差出现偏差,有可 能增大也可能偏小
iii.
t检验的可靠性降低。因为在异方差情况下,无法正确估计•系数的标 准
误差S (b),这直接影D竝统计量的正确确定,所以用t检验来判 断解释变量影响的显著性将失去意义。
IV.
增大模型的预测误差。随机误差项的方差与模型的预测区间密切相 关,在方差逐渐增大的情况下,模型的预测误差也随着增大。
4、 异方差的检验
i.
图示分析法。相关图分析考察Y的离散程度和解释变量是否有相关 关系。残差序列分布图考察残差的离散程度。
ii.
戈得菲尔德-匡特检验(GQ)
适用范围(优点):样本容量较大、异方差性呈递增或递减的情况, 对于复杂异方差则无法应用,检验结果和数据剔除个数有关。
缺点:无法确定具体形式,对于接下来如何解决异方差没有提供很 好的建议。对于复杂异方差不适用。对于多元的情况,处理比较麻 烦。 检验思路:为了检验异方差性•将样本按解释变量排序后分成两部分, 再利用样本1和样本2分别建立回归模型,并求出各自的残差平方和 RSS和
RSS。如果误差项的离散程度相同(即为同方差的),则RSS 与RSS的值
应该大致相同;若两者之间存在显著差异,则表明存在异 方差性。
iii.
怀特检验
使用范国(优点):适用于任何形式的异方差(不仅限于单调异方 差)、对于多元模型也很方便,还可以初步推测异方差的形式。 检验步骤:通过建立辅助回归模型来判断。见ppt (这个应该不用 背)
iv.
帕克检验和戈里瑟检验
基本思想:利用残差绝对值序列或残差平方序列,分别对Xi (的某 种形式)进行一元辅助回归;山回归方程的显著性、拟合优度判断 异方差存在。
优点:不仅能检验出异方差性,而且可以近似给出异方差的具体形 式,有助于进一步研究如何消除异方差性的影响。
5、 异方差的解决办法
如果是假性异方差,首先修正模型,若检验后发现异方差不存在了,说 明原来的异方差是假性异方差。模型修正后就已经解决。如果是真正的 异方差,通过模型修正也无法改善,则可利用増长率模型,将与规模有 关的异方差去除或减弱。也可利用以下方法:
i.
模型变换法
模型变换法即对存在异方差性的模型进行适当的变量变换.使之成为满 足同方差假定的模型,这样仍然可以利用最小二乘法估计变换后的模型, 得到的参数估计还是最佳线性无偏估计。模型变换法的前提是要合理确 定异方差性的具体形式,这可以通过对具体经济问题的经验分析,或者帕 克检验戈里瑟检验所提供的信息加以确定。
ii.
WLS加权最小二乘
加权最小二乘法才是最佳线性无偏估计量。
二、自相关性
1、
定义:线性回归模型,如果随机误差项的各期值之间存在着相关关系, 则称模型存在着自相关性。
2、 原因
i.
模型中遗漏了重要的解释变量。(假性)例如,以年度资料建立居民 消费函数时,居民消费y除了受收入水平x的影响外,还受消费习 惯、家庭财产等因素的影响,这些因素的各期值之间一是相关的, 如果根中未包含这些因素,它们对消费的影响就表现在随机误差项 中,以而使随机误差项的各期值之间呈现出相关关系。再如,在商品 需求函数中,如果解释变量只有收人和商品的自价格,则随机误差 项中将包含其他商品价格对该商
品需求的能响,价格变量般是逐期 相关的,从而使模型产生自相关性。
ii.
模型函数形式的设定误差。(假性)例如,平均成本函数应该是二次 多项式模型:如果设成了直线形式,则随机误差项是自相关的,因为 误差项中包括了产值的平方项,产值的各期相关性将会导致随机误 差项的自相关性。
iii.
经济惯性。(真)III于经济发展的连续性所形成的惯性(或粘滞性), 使得许多经济变量的前后期之间是相互关联的。例如,本期的投资 规模,往往与前一年祺至前儿年的投资有关。受消费习惯的影响,居 民的本期消费水平在很大程度上还受到原有上期)消费水平的制约。 在生产技术条件相对稳定时期,各期的产量也是密切相关的。因此, 利用时间序列资料建立模型时,经济发展的惯性使得模型存在自相 关性。
iv.
随机因素的影响。(真)例如自然灾害、金融危机、世界经济环境的 变化等随机因素的影响,往往要持续多个时期,使得随机误差项呈现 出自相关性。
3、 后果
i.
最小二乘估计不再是有效估计。当模型存在自相关性时,OLS估计 仍然是无偏估计,但不再具备有效性。应该改用其他方法估计模型 中的参数。
ii. iii.
—般会低估OLS估计的标准误差。
t检验的可靠性降低。在自相关的影响下,标准误差估计偏低将直接 导致t
统计量值的增大,这很可能使原来不显著的t值变为显著的, 即将不重要的因素误认为有显著影响的变量引入模型。
IV.
降低模型的预测精度。模型的预测区间与参数估计量的方差密切相
关,系数估计误差的不准确,将直接影响模型的预测精度。
4、
检验
i. 残差图分析。如果随着时间的推移残差分布呈现出周期性的变化, 说明可能存
在自相关。
ii.
德宾一沃森(DW)检验
适用条件:只适用于检验一阶自相关性,且解释变量要与随机项不 相关,样本容量较大的情况下使用。
局限性:(1)只能判断是否存在一阶的自相关性。DW接近于2时, 只能说明et与ez不相关,并不意味着模型不存在高阶自相关性, 即不能得出“不存在自相关性”的结论。
(2) 存在两个不能确定的区域,一旦落入这两个区域就要通过其他 方
法(或者增加样本数据,或者重新取样,或者用其他检验方法)
(3) 不适用解释变量与随机项相关的模型(比如当有滞后变量作为 解释
变量时,此时DW有趋向2的趋势。需要利用Durbin-h统计 量进行判断)
iii.
偏相关系数检验
衡量多个变量之间相关程度的重要指标,用它来判断自相关性的类 型。
iv. 5、
布罗斯一戈弗雷检验
解决办法
首先修正模型,若检验后发现自相关不存在了,说明原来的自相关假性自 相关。模型修正后就已经解决。若为真正的自相关,则用广义差分法。GLS的 基本思想就是通过对总体方差协方差矩阵的分解,将回归的残差转变成满足古 典假定的残差,然后使用OLS估计。可见WLS与广义差分都是GLS的特例。
三、多重共线性
1. 完全多重共线性:多元线性回归模型中的解释变量之间,存在严格的线性 关
系。原因:通常是模型设定的失误。后果:此时无法唯一解出确定的参 数估计值,估计的方差无穷大,违反了基本假定。解决:可以放弃部分解 释变量
2. 定义:对于多元线性回归模型丫 = 0]+介上+1_ +伐血+〃,解释变量之 间存在
较强的线性关系。或者说存在一组不全为0的常数AI,22L,艮使 得 A1 + 几2上 +L + XkXk +y = 0
3. 原因:
变量之间的内在联系。经济系统中各要素之间是互相依存、互相制约的, 在数量关系上必然有一定联系。例如工业生产函数中劳动和资本投入在数 量上的相关关系。
ii.
经济变量变化趋势的“共向性°。经济变量在考察的样本期内变化方向具有一 致性,使变量的样本数据高度相关。比如,经济繁荣时经济指标(收入、 消费、投资等)趋向增长。
iii.
滞后变量的引入。例如,在消费函数中引入本期和前儿期的收入,变量的 各期值之间可能是高度相关的。
iv.
样本资料的原因
可见,经济变量之间总存在一定程度的线性相关,因此,问题不是多 重共
线性的有无,而是多重共线性的严重程度。
4. 后果: i.
好消息:近似多重共线性不违反任何假设。可以得到参数估计值。OLS 估计量仍旧是唯一的,最小方差的线性无偏估计量。
ii. iii. iv. v.
増大OLS估计的方差,使得参数估计不稳定,异常值多。 难以区分每个解释变量的单独影响
t检验的可靠性降低(单个参数的t检验不显著,甚至符号相反)
回归模型缺乏稳定性
5. 检验
多重共线性并不违反经典假设,因此对于不严重的多重共线性无需处理; 只有当比较严重时才需要处理。所以我们检验的不是多重共线性的有无, 而是强弱。下面给出的不是严格的统计方法,而是基于经验的判断
i.
相关系数检验
・主要针对两个解释变量的情况。
・一般,如果两个解释变量简单相关系数比较高(如,大于0.8),可 以认为
存在较严重的多重共线性
・ 注意,该方法对解释变量多于两个时,不一定有效。此时变量之间 两两
相关系数很低,也可能存在严重的多重共线性。
ii.
辅助回归模型检验
・当模型解释变量个数多于两个,而且呈现复杂相关关系时采用 ・用每一个解释变量对其他解释变量构造辅助回归方程来检验多重共 线
性。Xj = a\\ + +L +
+L + OK^K
Q)如果方程整体显著(F),则表明存在多重共线性。
② 若有‘厂< ,则怀疑有多重共线性洪
2
0)看辅助回归方程的拟合度的大小
(辅助回归模型检验还可以得刼多重共线性的具体形式)
iii. 方差膨胀因子检验
分析思路:多重共线性使得参数佔讣方差放大。通过考察参数佔计•被放 大的程度,判断模型存在多重共线性的程度。可以推出,在多元回归中 有:
R; =0 时,
心]占
0 < A2 < 1
时,
方差扩大因子,记作
・ 常以方差扩大因子是否大于10来判断第]个解释变量是否存在较强 的、
必须加以处理的多重共线性。 ・对应的辅肋方程的判决系数为0.9
R2 VIF
0 1 0.5 2 0.5 0.9 5 10 0.95 0.98 0.99 20 50 100 0.999 1000 当完全共线时,R2 = l, VIF二无穷大
・ 与VIF等价的指标。“容许度”判别TOL J=_L = \\—R[
VIF
OWTOLW1; —般当TOL<0.1,认为模型存在较严重的多重共线性。
iv. 直观判断
・看参数估计量的符号、数值是否与理论相符合?如果与定性分析结 果违
背,可能存在多重共线性。(当然也可能模型设定出现了问题)
・ 若回归整体显著性F拒绝H0,但参数t检验多数都不显著。
・当增加或者剔除一个解释变量,回归参数的估计值和标准差发生较 大变
化。
6. 解决办法
基本原则:①如果建模U的是预测,则模型的拟合优度较高,并且相关关 系保持不变,就可以忽略多重共线性问题。如果建模口的是结构分析,则
需要消除多重共线性的影响。
②引起多重共线性的原因是模型存在相关的解释变量,因此消除多重共线 的根本方法只能是删除这些变量,但剔除变量要要谨慎。否则,去掉了重 要的变量,经济意义不合理,或者模型设定出现偏误。
I.
扩大或改变样本
原理:多重共线是一种样本现象。可以从样本入手。样本容量越大,变 量相关性越小,相关越难。 ・增加样本容量 ・采用面板数据
・ 增加数字的字长,进行双精度计算
局限:由于资料收集以及调查的困难,改变样本、增加样本容量在实践 中有时并不容易。如果新增加的样本数据与原来具有相同的性质,那么 就无法起到作用一一可以利用面板数据加以克服。
ii.
从解释变量角度,剔除次要变量
・设定经济模型时容易考虑过多的解释变量,其中有些可能是无显著 作用的次要
变量,可以直接去除。次要变量可以通过被解释变量和 解释变量的相关系数检验、相关图分析等统计分析加以鉴别 ・ 局限:可能引起模型设定误差,违反其他假定。
iii.
逐步回归法
思路汀由少到多”的过程,即从所有解释变量中先选择影响最为显著的 变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变 量,就对模型中的所有变量进行显著性检验,并从中剔除不显著的变量; 逐步引入-剔除-引入,直到模型之外所有变量均不显著为之。
可以借肋统计方法帮助选择: ・首先将变量按照重要程度排序 ・然后逐步添加解释变量
・基于t检验,一,2 AIC, SC等准测R 步骤
① 用被解释变量对每一个所考虑的解释变量回归。
(2以对被解释变量贡献最大的解释变量所对应的方程为基础,按照对被 解释变
量贡献大小,逐个引入其余变量。
要求,模型的每个解释变量影响显著,参数符号正确,F有所提高
(3)如此下去,直至无法加入新的变量为止。 iv.
模型改造和变量替换
(0将名义变量替换为实际变量。因为名义变量之间由于价格关系可能存
在多重共线性问题
(2)利用相对数量
例如:研究需求函数时
0 = 0i + piY + 0迟 + /^+ w
Q =血+°2卩+©售+\"
③ 利用先验信息约束估计
•例:生产函数YUKB ,经对数变换 为.log! = log A + + Q
如果预先知道所硏究的经济冇规模报酬不变 的性质,即函数中的参数满皆g就可 以克服劣重共线性。
log Y = log/l 十 a log £ -t-(l - a) log K 十&
log Y - lag K = log A + czflog £ - log K) + & log [ =k>g 月十alog£ 十£
A K
④ 混合佔计:利用其他方法(如专家调查)估计出部分参数,带入模型。 整理后可以建立一个新的模型。然后对新模型进行估计。
V.
主成分回归 思路:
①利用主成分方法将解释变量转换成若干个互不相关的主成分。这些主 成分从不同侧面反映了解释变量的综合影响,互不相关
(2)将被解释变量关于这些主成分回归
③再根据主成分与解释变量的对应关系,求得原回归模型的估计方程
四、内生性
1. 定义:解释变量与随机误差项之间若存在某种程度的相关性,即:
COV(.切°此时,称模型存在内生性问题,与随机误差项相关的解释
变量称为内生解释变量
2. 原因
I.
遗漏了重要的解释变量
建模时由于人们认识上的偏差,理论分析的缺陷,统计数据的影响,导 致有
意或无意忽略了某些重要变量,未能将其作为解释变量引入模型。
被遗漏的变量影响由随机误差项体现出来,如果与模型中现有的解释变 量相关,则会造成解释变量与随机误差项的相关。
ii. iii. iv.
观测误差 滞后被解释变量 联立方程
3. 后果 i.
影响无偏性。参数估计是有偏的,而且参数估计的偏差不仅仅存在于内 生解释变量的参数,而是所有的参数估计值都会受到影响
ii.
影响一致性。OLS不具有一致性
4. 解决方法 i.
工具变量法
基本思路:当出现内生解释变量,即解释变量与随机项相关时,则寻找 另一个变量,该变量与内生解释变量高度相关,与随机解释变量不相关, 称该变量为工具变量,用其“替代\"内生解释变量参与参数估计的过程 注意:工具变量对内生解释变量的替代,不是完全替代,而是将模型中 的X视作由两个部分组成:其中一部分是与u相关(正是这部分引发 了问题),而第二部分与u无关,即从工具变量中收集X变动中与u无 关的信息,忽视X变动中与u相关的信息。
工具变量的变量满足的条件:
工具变量的相关性:与所替代的随机解释变量高度相关 工具变量的外生性:与随机误差项不相关
如果一个多元回归方程中含有的内生变量个数不只一个,那么我们就必 须分别找到它们各自的工具变量。总得来说,需要注意的是,工具变量 的个数必须大于方程中内生变量的个数。
ii.
二阶段最小二乘法:单个回归变量&单个工具变量(见ppt)
5. 检验
如果有内生变量,OLS与TSLS的差异显著
五、虚拟变量
1.定义:
将取值0和1的人工变量称为虚拟变量、哑元变量,定性变量。通常用D 表示。对定性变量的量化,以及对定量变量的分类,都可以采用虚拟变量 的方式进行。
2. 虚拟变量中“0”,“T选取原则:从分析问题的目的出发予以界定
—代表基期,比较的基期,参照组
1—代表报告期,被比较的效应,实验组 3. 虚拟变量引入的方式 i. 加法方式
①单个虚拟变量的引入:一种因素两种状态 例:研究工龄、性别对员工工资的影响
Y. = + /?,£>• + //,.
其中’ 丫为企业职工的薪金, _ji男曲 X/为工龄.
D= l()站
② 多个虚拟变量的设定和引入 ——一种因素多种状态 例:研究收入和教育水平(高、中、低)对个人保健支出的影响 这时需要引入两个虚拟变量:
「1中等学
历
1齡历 0比他
③ 多个虚拟变量的引入——多种因素 0其他
例:研究学历(本科以上、本科以下)、性别对员工工资的影响
在例*1基础上,再引入代表学历的虚拟变章6:
DJ本科及以上学历
1° 本科以F学历
职匸薪金的冋归模型可设计为: 丫产仇+0X+0从+ 0D + E
非线性效应:加法方式引入虚拟变量.考察了截距的不同,但也隐含了 —个较强的约束:即不同性别的人的学历差距对工资的影响一样 ——可利用交互项来处理非线性效应
例:研究工龄、性别、学历对工资的影响(包括性别和学历的交互性)
丫=卩。+0內
F-农示工瓷收入
〉:一表示丄龄
口一农示性别的虚拟变昴,男性=1,女性=0
2—去示是舌为高学历的虚拟变晁•局学历=1.肛学历=0
ii.
乘法方式
乘法方式引入虚拟变量时,将虚拟变量与其他解释变量(或者定量变量 X,或者其他虚拟变量D)的乘积,作为新的解释变量岀现在模型中。 达到调整设定模型斜率的目的。
例:利用1978-2001年的数据,分析1990年前后消费倾向是否变化
设.D _ 1990年前(r<1990)
,
山 ,=11 1990年后\">1990)
0
消费模型可建立如下:
3 = BQ +
I + PQX{ + /Jt
iii.
当截距与斜率发生变化时,同时引入加法与乘法形式的虚拟变量
4. 虚拟变量的引入原则
若定性因素具有(m夕2)个相互排斥的属性(或水平)
・ 当回归模型有截距项时,只能引入m-1个虚拟变量,否则就会陷入
“虚拟变量陷阱\"
・ 当回归模型无截距项时,可引入m个虚拟变量
5. 虚拟变量的应用 i.
调整季节波动——利用季度或月份资料建模时,经常存在季节波动。 处理方法:去除时间序列的季节、周期等效应,更清晰的反应变量之间 的关系。
ii.
检验模型结构的稳定性(变化)
用途:分析模型结构对样本变化的敏感性、比较两个或多个模型之间的 差异情况
iii.
分段回归分析
作用:提高模型描述精度。虚拟变量也可以用来代表数量因素的不同阶 段。分段线性回归就是类似情形中常见的一种。
因篇幅问题不能全部显示,请点此查看更多更全内容