西部数码网站空间,wordpress怎么自动生成内链,百度收录不到我的网站,wordpress视频缩略图自动播放横截面数据回归
一些笔记
观测值一定要比参数值多 p值0.05,拒绝H0. 参数显著#xff0c;不能说明模型对 AIC与BIC准则#xff0c;越小越好的指标值AIC 回归分析一定要进行残差的正态性检验。所有的残差都大于0#xff0c;小于0#xff0c;都不正常。残差正常应该是分…横截面数据回归
一些笔记
观测值一定要比参数值多 p值0.05,拒绝H0. 参数显著不能说明模型对 AIC与BIC准则越小越好的指标值AIC 回归分析一定要进行残差的正态性检验。所有的残差都大于0小于0都不正常。残差正常应该是分布在0的附近有正有负它应该是随机的 残差的正态性检验检验统计量是否复合正态分布QQ图检验正态性 经验分布函数与生存分析函数是相反的 多重共线性 1.判断是否存在多重共线性VIF10即存在多重共线性
实验
公路一氧化碳数据
数据
先进行一般的回归假定残差服从正态分布也是最简单的线性回归我们先拟合看一看效果怎么样。 C O β 0 β 1 H o u r β 2 T r a f f i c β 3 W i n d ε CO \beta_0\beta_1Hour\beta_2Traffic\beta_3Wind\varepsilon COβ0β1Hourβ2Trafficβ3Windε 以最小二乘法拟合得到参数估计值 代码
w - read.table(D:/cofreewy.txt,header TRUE)
head(w)
alm(CO~.,w)#利用3个自变量做线性回归
summary(a)#展示结果
bstep(a,directionbackward)#逐步回归
summary(b)#展示逐步回归结果由此可以看出我们拟合的模型是 C O 1.274 0.018 ∗ T r a f f i c 0.175 ∗ W i n d CO 1.2740.018*Traffic0.175*Wind CO1.2740.018∗Traffic0.175∗Wind 由此可以看出我们拟合的模型是 C O 1.274 0.018 ∗ T r a f f i c 0.175 ∗ W i n d CO 1.2740.018*Traffic0.175*Wind CO1.2740.018∗Traffic0.175∗Wind R 2 R^2 R2表示线性回归模型中自变量X解释的响应变量y的变化比例. R 2 R^2 R2越大说明自变量X对响应变量y的解释越强.
这个模型在统计意义上已经不能说明模型对因为残差是否满足正态分布我们还不知道毕竟回归的前提是假设残差满足正态分布。 我们再来看一下残差的分布情况看看它是否服从正态分布。
shapiro.test(b$res)#做残差的正态性检验我们可以看出p值0.05不拒绝原假设注意不是接受原假设是不拒绝原假设我们可以假设残差服从正态分布。 但这样是不是就好了这就是最好的模型呢
qqnorm(b$res);qqline(b$res)#做残差的QQ图.这种线性回归首先是假定了它的残差是服从正态分布模型建出来之后通过QQ图检验它的残差是否真的服从正态分布那如图所示如果没有很好的服从或者渐进服从正态呢怎么办 注意在小样本情况下p值0.05的界限不能完全诠释模型优劣 重新拟合不用线性用非线性 在此之前让我们先看一看各个属性之间的关系是什么绘制散点图看一看。
attach(w) #把变量名字放入内存
par(mfrowc(2,3)) #建立6个图的摆放模式
plot(CO~Traffic);plot(CO~Hour);plot(CO~Wind)
plot(Traffic~Hour);plot(Wind~Hour);plot(Traffic~Wind)
# 也可以直接plot(w)用一行代码直接绘制所有属性的关系。这样就很清楚了那两个变量之间需要线性关系那两个之间需要非线性关系一目了然。 我们可以清晰的看到线性、三角函数那那个既非线性又非三角函数的周期函数呢用傅里叶级数。 法国数学家傅里叶认为任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示选择正弦函数与余弦函数作为基函数是因为它们是正交的后世称傅里叶级数为一种特殊的三角级数根据欧拉公式三角函数又能化成指数形式也称傅立叶级数为一种指数级数。 # 计算相关系数
cor(cbind(CO,Traffic,TsqTraffic^2,TcubTraffic^3,Hour,HsqHour^2,HcubHour^3,Wind,WsqWind^2,WubWind^3))注cbind()函数是R语言中用于合并数据框的函数它可以将多个数据框按照列合并。 # 回归
lm2 - lm(CO~TrafficWindI(Wind^2)I(Wind^3)sin((2*pi/24)*Hour)cos((2*pi/24)*Hour)sin((4*pi/24)*Hour)cos((4*pi/24)*Hour))
summary(lm2)
lm3- step(lm2)
summary(lm3)
anova(lm3)
shapiro.test(lm3$res)# 去掉不显著的重新拟合
lm4 - lm(CO~TrafficWindI(Wind^2)cos((2*pi/24)*Hour)cos((4*pi/24)*Hour))
summary(lm4)
anova(lm4)
shapiro.test(lm4$res)
qqnorm(lm4$res)
qqline(lm4$res) 最后的拟合模型为 C O 1.38 0.017 ∗ T r a f f i c 0.459 ∗ W i n d − 0.057 W i n d 2 − 0.366 c o s ( ( 2 ∗ p i 24 ) ∗ H o u r ) 0.38 c o s ( ( 4 ∗ p i 24 ) ∗ H o u r ) ε CO 1.380.017*Traffic0.459*Wind-0.057Wind^2-0.366cos((\frac{2*pi}{24})*Hour)0.38cos((\frac{4*pi}{24})*Hour)\varepsilon CO1.380.017∗Traffic0.459∗Wind−0.057Wind2−0.366cos((242∗pi)∗Hour)0.38cos((244∗pi)∗Hour)ε 注其中 ε \varepsilon ε表示残差即 C O i − C O ^ i CO_i-\hat{CO}_i COi−CO^i 注意 R 2 R^2 R2此模型要更好 总结
线性回归模型中如果残差服从正态分布则可以认为模型是合理的。P值不是万能的好的模型还是要不断试一试才能出来。回归是否有意义还是要放在实际背景中去看