企业做网站排名,python游戏编程入门,学做网站论,江西旅游 网站建设方差分析 方差分析是由英国统计学家Fisher在20世纪20年代提出的。 方差分析的目的是推断两个或者两个以上的总体均值是否有差异的显著性检验。
单因素方差分析
例子 保险公司为了了解某一险种在4个不同地区索赔额情况是否存在差异。收集了四个地区一年的索赔额记录。这四个…方差分析 方差分析是由英国统计学家Fisher在20世纪20年代提出的。 方差分析的目的是推断两个或者两个以上的总体均值是否有差异的显著性检验。
单因素方差分析
例子 保险公司为了了解某一险种在4个不同地区索赔额情况是否存在差异。收集了四个地区一年的索赔额记录。这四个地区的索赔额有无显著性差异。
概念 试验指标研究对象的特征值。例如索赔额。 因素对试验指标产生影响的原因。例如地区。 水平因素中各个不同状态称为水平。例如A1、A2、A3、A4四个水平。 单因素方差分析仅考虑一个因素A对试验指标的影响。
检验假设 我们假设有r个水平每个水平下有njn_j个观察值j1,2...rj=1,2...r观察值总数为n XijμiεijX_{ij}=\mu_i+\varepsilon _{ij} εij\varepsilon _{ij}~N(0,σ2)N(0,\sigma^2) j1,2,...nij=1,2,...n_ii1,2,...ri=1,2,...r ∑ri1nin\sum_{i=1}^{r}n_i=n X¯¯¯i.1ni∑nij1Xij\overline X_{i.}=\dfrac{1}{n_i}\sum_{j=1}^{n_i}X_{ij} X¯¯¯1n∑ri1∑nij1Xij\overline X=\dfrac{1}{n}\sum_{i=1}^{r} \sum_{j=1}^{n_i}X_{ij}
原检验 H0:μ1μ2....μrH_0:\mu_1=\mu_2=....=\mu_r H1:μ1,μ2...μrH_1:\mu_1,\mu_2...\mu_r不全相等
检验假设的方法 检验假设采用的方法是平方和分解法。 总离差平方和STS_T 表示数据中的差异。这种差异可以认为由两部分因素引起因素A和随机误差。 效应平方和SAS_A: 表示由因素A引起的差异。 误差平方和SES_E: 表示由随机误差所引起的差异。 ST∑ri1∑nij1(Xij−X¯¯¯)2S_T=\sum_{i=1}^{r} \sum_{j=1}^{n_i}(X_{ij}-\overline X)^2 SA∑ri1(X¯¯¯i.−X¯¯¯)2S_A=\sum_{i=1}^{r} (\overline X_{i.}-\overline X)^2 (又叫做组间差异) SE1n∑ri1∑nij1(Xij−X¯¯¯i.)2S_E=\dfrac{1}{n}\sum_{i=1}^{r} \sum_{j=1}^{n_i}(X_{ij}-\overline X_{i.})^2(又叫做组内差异)
选择统计量 定理如下 STSASES_T=S_A+S_E SEσ2\dfrac{S_E}{\sigma^2}~卡方(n-r) 理由是对于某一个水平i∑nij1(Xij−Xi.)2\sum_{j=1}^{n_i}(X_{ij}-X_{i.})^2是总体N(μi,σ2)N(\mu_i,\sigma^2)的样本方差SiS_i的nj−1n_j-1倍所以∑nij1(Xij−Xi.)2σ2\dfrac{\sum_{j=1}^{n_i}(X_{ij}-X_{i.})^2}{\sigma^2}~卡方(ni−1n_i-1)参考链接又因为各个水平之间相互独立XijX_{ij}相互独立根据卡方分布的可加性所以SEσ2\dfrac{S_E}{\sigma^2}~卡方(∑ri1ni−1\sum_{i=1}^{r}n_i-1)等价于最开始的表达式。 E(SE)(n−r)σ2E(S_E)=(n-r)\sigma^2可以参考参数估计(PDF版)的练习题。 SE与SA独立S_E与S_A独立参考链接 当H0H_0为真时SAσ2\dfrac{S_A}{\sigma^2}~卡方(r-1) 理由是 SA∑ri1(X¯¯¯i.−X¯¯¯)2S_A=\sum_{i=1}^{r} (\overline X_{i.}-\overline X)^2是r个变量ni−−√(X¯¯¯i.−X¯¯¯)\sqrt{n_i}(\overline X_{i.}-\overline X)(i1,2…r)的平方和因为H0H_0的假设使得它们之间有一个线性约束条件…..写不下去了参考一下课本或者直接记住结论。 最终使用的统计量FSA/(r−1)SE/(n−r)F=\dfrac{S_A/(r-1)}{S_E/(n-r)}~F(r-1,n-r) 问题的拒绝域FSA/(r−1)SE/(n−r)≥Fα(r−1,n−r)F=\dfrac{S_A/(r-1)}{S_E/(n-r)}\ge F_\alpha(r-1,n-r)因为如果各个水平均值相同那么SAS_A不应该太大。
查表计算
未知参数估计 未知参数有σ2,μ1,μ2...\sigma^2,\mu_1,\mu_2... σ^2SEn−rMSE\hat \sigma^2=\dfrac{S_E}{n-r}=MS_E μiX¯¯¯i.\mu_i=\overline X_{i.}
两两对比 比较N(μi,σ2)N(\mu_i,\sigma^2)与N(μj,σ2)N(\mu_j,\sigma^2)是否有差异。可以使用区间估计或者假设检验。
区间估计 E(X¯¯¯i.−X¯¯¯j.)μi−μjE(\overline X_{i.}-\overline X_{j.})=\mu_i-\mu_j D(X¯¯¯i.−X¯¯¯j.)σ2(1ni1nj)MSE(1ni1nj)D(\overline X_{i.}-\overline X_{j.})=\sigma^2(\dfrac{1}{n_i}+\dfrac{1}{n_j})=MS_E(\dfrac{1}{n_i}+\dfrac{1}{n_j}) 所以X¯¯¯i.−X¯¯¯j.\overline X_{i.}-\overline X_{j.}~N(μi−μj,MSE(1ni1nj))\mu_i-\mu_j,MS_E(\dfrac{1}{n_i}+\dfrac{1}{n_j}))参考以前可以知道置信区间是(X¯¯¯i.−X¯¯¯j.±tα/2(n−r)MSE(1/ni1/nj)−−−−−−−−−−−−−−−√)(\overline X_{i.}-\overline X_{j.}\pm t_{\alpha/2}(n-r)\sqrt{MS_E(1/n_{i}+1/n_j)})
假设检验 H0:μiμjH_0:\mu_i=\mu_jH1:μi≠μjH_1:\mu_i \ne \mu_j 检验统计量 tijX¯¯¯i.−X¯¯¯j.MSE(1/ni1/nj)−−−−−−−−−−−−−−−√)t_{ij}=\dfrac{\overline X_{i.}-\overline X_{j.}}{\sqrt{MS_E(1/n_{i}+1/n_j)})} 当H0H_0成立tijt_{ij}~t(n−r)t(n-r) (这里自由度为什么是n-r) 拒绝域 W|tij|tα/2(n−r)W={|t_{ij}|>t_{\alpha/2}(n-r)}
方差分析的条件 进行方差分析的三个条件 1独立性。数据来自r个总体的随机抽样。在实际使用中要注意试验数据、或者采集数据的独立性。 2 正态性。r个独立总体均为正态分布。实际中几乎没有一个总体真正服从正态分布只要数据分布比较对称的话就没有问题。F检验对正态性的假设并不敏感。 3 方差齐性。r个总体方差相同。方差齐性的检查标准是最大样本标准差不超过最小样本标准差的两倍时方差分析F检验结果近似准确。