回归分析学习与思考(2)

课本上的东西,发不了链接 - - 只能写原创了

先画散点图看看大概的模型plot(x,y)
参数估计:最小二乘法
显著性检验:对参数进行t检验,对回归方程进行F检验,相关系数检验R-square
参数区间估计:beta.int(B)函数
回归函数:B<-lm(y~x+I(x^2),data=A)
summary (B):提取模型详细信息
预测:predict(B) 或者predict(B,data)
abline(B)画出拟合线
残差,查看残差图:residuals(B) ,plot(residuals(B)~predict(B))
标准残差和图:rstandard(B) ,plot(rstandard(B)~predict(B))
来判断残差是不是服从标准正太分布,以及去除异常点,去除之后再进行一次回归
控制:已知y在某区间,求x的范围
deviance(B) 残差平方和:这个值越小说明拟合的越好,一般用在增删变量修改模型时,总的数据量没变,但残差平方和在变,可以用到多元里。

多元:
散点图:可以画出y与各个分量的散点图来判断互相的关系
C<-step(B)
summary©
drop1©
deviance(B) 残差平方和:这个值越小说明拟合的越好,一般用在增删变量修改模型时,总的数据量没变,但残差平方和在变

回归诊断:
(1)一定要结合散点图来看,因为有的时候拟合都通过了检验,但散点图却不是线性的



(2)残差与标准化残差

如果假设正确(残差有高斯-马尔科夫性),标准化残差服从标准正态分布,则标准残差图中应该有95%以上的点落在[-2,2]之间,2表示2倍的标准差(标准态分布是1),所以可以通过观察标准残差图判断模型是不是有问题
(3)QQ图:检验残差的正态性
(4)影响分析:
1帽子矩阵来区分异常值,即单体影响比别的值要大
hatvalues(B),如果 h_ii<2(p+1)/n 可以认为第i个数据影响比较大
hat(A),A是数据集
abline(h=2(p+1)/n) #画处那条横线,如果没显示可以算一下值
2 DFFIT准则
dffits(B)

		d_i>√(2(p+1)/n)   就认为第i个数据异常回归诊断函数Reg_Diag()3cookie_distance这个判定法想找个异常值的临界值很困难4 covratio


5 Reg_Diag(B)
直接计算七个统计量,包括残差,标准化残差,学生矩阵,帽子矩阵,DFFITS矩阵,cookie_distance,covratio

(6)多重共线性
kappa(B)
k<100 共线性程度 很小
k<1000 中等,较强多重共线性
k>1000 严重多重贡献

eigen(B) 求出X^T X的特征值和特征向量

X^T X的特征根和特征向量满足 X^T Xφ=λφ
λ约等于0,所以λφ 约等于0,左边的乘积结果是个向量,所以向量的所有分量约等于0,式子(6.48)就是X^T X的第i个元素(x1,x2,x3,x4,x5,x6)(行向量)乘以φ(列向量)
共线性可以通过以上式子将其中一个替换掉。

修改模型:lny,sqrt(y),exp(y),也可以给X变换,具体怎么换要看情况,哪种拟合最好用哪种。

非线性常见模型:

有的时候还可以将自变量分段,但是自变量太多的话,有可能要分段的就很多,这样一来就很麻烦

实际情况要多做几个模型,相互比较,选一个比较好的

回归分析学习与思考(2)

课本上的东西,发不了链接 - - 只能写原创了

先画散点图看看大概的模型plot(x,y)
参数估计:最小二乘法
显著性检验:对参数进行t检验,对回归方程进行F检验,相关系数检验R-square
参数区间估计:beta.int(B)函数
回归函数:B<-lm(y~x+I(x^2),data=A)
summary (B):提取模型详细信息
预测:predict(B) 或者predict(B,data)
abline(B)画出拟合线
残差,查看残差图:residuals(B) ,plot(residuals(B)~predict(B))
标准残差和图:rstandard(B) ,plot(rstandard(B)~predict(B))
来判断残差是不是服从标准正太分布,以及去除异常点,去除之后再进行一次回归
控制:已知y在某区间,求x的范围
deviance(B) 残差平方和:这个值越小说明拟合的越好,一般用在增删变量修改模型时,总的数据量没变,但残差平方和在变,可以用到多元里。

多元:
散点图:可以画出y与各个分量的散点图来判断互相的关系
C<-step(B)
summary©
drop1©
deviance(B) 残差平方和:这个值越小说明拟合的越好,一般用在增删变量修改模型时,总的数据量没变,但残差平方和在变

回归诊断:
(1)一定要结合散点图来看,因为有的时候拟合都通过了检验,但散点图却不是线性的



(2)残差与标准化残差

如果假设正确(残差有高斯-马尔科夫性),标准化残差服从标准正态分布,则标准残差图中应该有95%以上的点落在[-2,2]之间,2表示2倍的标准差(标准态分布是1),所以可以通过观察标准残差图判断模型是不是有问题
(3)QQ图:检验残差的正态性
(4)影响分析:
1帽子矩阵来区分异常值,即单体影响比别的值要大
hatvalues(B),如果 h_ii<2(p+1)/n 可以认为第i个数据影响比较大
hat(A),A是数据集
abline(h=2(p+1)/n) #画处那条横线,如果没显示可以算一下值
2 DFFIT准则
dffits(B)

		d_i>√(2(p+1)/n)   就认为第i个数据异常回归诊断函数Reg_Diag()3cookie_distance这个判定法想找个异常值的临界值很困难4 covratio


5 Reg_Diag(B)
直接计算七个统计量,包括残差,标准化残差,学生矩阵,帽子矩阵,DFFITS矩阵,cookie_distance,covratio

(6)多重共线性
kappa(B)
k<100 共线性程度 很小
k<1000 中等,较强多重共线性
k>1000 严重多重贡献

eigen(B) 求出X^T X的特征值和特征向量

X^T X的特征根和特征向量满足 X^T Xφ=λφ
λ约等于0,所以λφ 约等于0,左边的乘积结果是个向量,所以向量的所有分量约等于0,式子(6.48)就是X^T X的第i个元素(x1,x2,x3,x4,x5,x6)(行向量)乘以φ(列向量)
共线性可以通过以上式子将其中一个替换掉。

修改模型:lny,sqrt(y),exp(y),也可以给X变换,具体怎么换要看情况,哪种拟合最好用哪种。

非线性常见模型:

有的时候还可以将自变量分段,但是自变量太多的话,有可能要分段的就很多,这样一来就很麻烦

实际情况要多做几个模型,相互比较,选一个比较好的