数学建模社区-数学中国

标题: 方差分析 [打印本页]

作者: 浅夏110    时间: 2020-6-3 10:34
标题: 方差分析
我们已经作过两个总体均值的假设检验,如两台机床生产的零件尺寸是否相等,病 人和正常人的某个生理指标是否一样。如果把这类问题推广一下,要检验两个以上总体 的均值彼此是否相等,仍然用以前介绍的方法是很难做到的。而你在实际生产和生活中 可以举出许多这样的问题:从用几种不同工艺制成的灯泡中,各抽取了若干个测量其寿 命,要推断这几种工艺制成的灯泡寿命是否有显著差异;用几种化肥和几个小麦品种在 若干块试验田里种植小麦,要推断不同的化肥和品种对产量有无显著影响。  # ^% d! d2 @! e
7 x2 D% m  p$ T/ Z
可以看到,为了使生产过程稳定,达到优质、高产,需要对影响产品质量的因素进行分析,找出有显著影响的那些因素,除了从机理方面进行研究外,常常要作许多试验, 对结果作分析、比较,寻求规律。用数理统计分析试验结果、鉴别各因素对结果影响程 度的方法称为方差分析(Analysis Of Variance),记作 ANOVA。 人们关心的试验结果称为指标,试验中需要考察、可以控制的条件称为因素或因子, 因素所处的状态称为水平。上面提到的灯泡寿命问题是单因素试验,小麦产量问题是双因素试验。处理这些试验结果的统计方法就称为单因素方差分析和双因素方差分析。 " H1 N2 X9 @  K
1 d8 H- W; K# n. x
1  单因素方差分析
1 b0 b' q( k) v# @$ V只考虑一个因素 A对所关心的指标的影响, A取几个水平,在每个水平上作若干 个试验,试验过程中除 A外其它影响指标的因素都保持不变(只有随机因素存在),我 们的任务是从试验结果推断,因素 A对指标有无显著影响,即当 A取不同水平时指标 有无显著差别。 A取某个水平下的指标视为随机变量,判断 A取不同水平时指标有无显著差别, 相当于检验若干总体的均值是否相等。
7 F' M( p9 a. G4 J: V/ {! l4 C3 x  U- b) D: q  N) ^4 C
1.1  数学模型 + a. G3 p! `  x" k1 h) @

: a$ u1 G% j) D. R* V% Q5 }' o( ~1 o, J5 U7 U3 u6 G

1 s' B' o  z2 i1 w& L& P+ a4 g8 n3 h6 C( L1 a. u
; O  S" [% A9 ?6 ~

) s) t' G' f, a/ ^3 t& q3 Q9 K5 u& U

- s. o- S4 ^* U) N1.2  统计分析 5 D) w7 O9 l; r, I* P& o
2 L8 g/ R5 [/ X! _/ T' K
9 q  G* \: L2 R
& _# Y& P) t4 Q: q0 C  |) ?
* F5 n* A4 V- i+ e
1.3  单因素方差分析表
' p. Y# C, q& v: b; T9 I2 V1 n将试验数据按上述分析、计算的结果排成表 2 的形式,称为单因素方差分析表 (Matlab 中给出的方差分析表)。
- {: R$ H0 T4 I! z3 [1 Z+ r& ~, `8 y' O9 j# z2 F6 p- z
6 [- S2 o" m/ K: a! c2 v
9 u9 C# ?- ~- d9 {4 h
因素 A有无显著影响?4 _0 {/ g- a: f$ a

8 y2 w1 ?6 I1 m6 d& w) m
- Q1 _9 e& K! G' _; j+ V
: |# r* A& D8 ^- H/ T/ {# x( f& l) c; R5 v6 r- D, w" n4 N( Q6 r
1.4  Matlab 单因素方差分析函数anoval
/ P: v7 }* A7 F- b5 ^Matlab 统计工具箱中单因素方差分析的命令是 anoval。2 O6 o+ _# O- P( Y7 ^1 }1 p1 Y

- O. |! F/ @* _# W! U若各组数据个数相等,称为均衡数据。若各组数据个数不等,称非均衡数据。5 b6 d+ H& b( [

+ ^0 e+ L4 ?9 z5 _  Z* q(1)均衡数据. X3 w6 ^+ `5 o% u3 H

  G# G6 h2 }# ]7 T: m# y处理均衡数据的用法为:
% r$ W- ?& V! Q' i7 ]1 R& A& w! J. s5 O! X  Q1 E# q
p=anoval(x) ! n7 U( G& j* Y

4 q# B) }7 b6 {/ L* H
/ O0 ^! m" j  v/ A" n# E( x  q* Y) }9 }& ?3 B6 m5 ^+ j+ y8 x% M

例 1   为考察 5 名工人的劳动生产率是否相同,记录了每人 4 天的产量,并算出其 平均值,如表 3。你能从这些数据推断出他们的生产率有无显著差别吗?


: b0 C' g7 V9 W4 H
1 _% a6 o/ ~* `% K7 t解  编写程序如下:
: O3 {3 n% W+ C! T& x6 w6 K$ n9 @3 [
x=[256     254     250     248    236   & l: A/ m; z/ u- O6 W7 ]
   242     330     277     280    252   
0 C1 W* H: c* c( `7 U   280     290     230     305    220   
4 Z5 D4 G9 V2 J/ H$ }9 q   298     295     302     289    252];
( M2 w4 U) m, Z" Z! i/ Xp=anova1(x) % A0 }6 `8 P6 J$ w

) L- X  {& q" s4 J+ @$ p& G. w
) e9 n$ h" m; @) S! W; t9 ]7 C' u, a/ W$ ~; R' s  l$ A! q

(2)非均衡数据  

处理非均衡数据的用法为:

6 }( _: g) ?5 w& q$ r+ I
p=anova1(x,group) / J' m/ _- I2 E% Q; c$ C# ~
% U) o- d, E: a. u8 v" K
  z" u4 Z3 F; F3 I! p; Z+ ~/ R" N

' K8 J( }+ d; D& r: K: S4 L
8 ?7 m  q0 ~5 _! W- f% c2 g* E, S& @) p
例2   用4种工艺生产灯泡,从各种工艺制成的灯泡中各抽出了若干个测量其寿命, 结果如下表,试推断这几种工艺制成的灯泡寿命是否有显著差异。
! K' [2 O1 W# q# `
4 q9 R5 B; p0 Z/ C8 y" S3 {# g" B/ S2 d; Z* t
; b& I( t/ l2 H2 k
解  编写程序如下:
3 q! s- F% s/ I- Q: a3 n
$ _7 @7 m6 }+ h. cx=[1620    1580    1460    1500   
& J8 e1 f2 G- |% h7 z( W. I   1670    1600    1540    1550   
; I( G% P$ b% }4 P" [   1700    1640    1620    1610   
' H1 ?2 \8 b: C8 M   1750    1720    1680    1800];
+ ?6 a9 G7 `/ Z: J: b- dx=[x(1:4),x(16),x(5:8),x(9:11),x(12:15)];
. y* Z) Y8 a, Y! @g=[ones(1,5),2*ones(1,4),3*ones(1,3),4*ones(1,4)]; * [8 v3 u: E; a+ Z
p=anova1(x,g)
6 p( c4 P8 I* m2 c$ [4 |
) f4 p7 ^9 g  r2 l+ W求得 0.01<p=0.0331<0.05,所以几种工艺制成的灯泡寿命有显著差异。
( `- F1 x+ P& H
/ @* ^) w5 F2 T+ u- n% ~1.5  多重比较
; s+ T3 v% L) b: f0 b: b' t! F在灯泡寿命问题中,为了确定哪几种工艺制成的灯泡寿命有显著差异,我们先算出 各组数据的均值: $ K5 E* X" r2 n& ]
" w( @* m/ ~. C8 T& z, N
3 b# H, K0 J! W4 a) k! t
! ?$ l+ I4 P" f& |& |- U1 B& E7 |
虽然  的均值大,但要判断它与其它几种有显著差异,还需做多重比较。一般多重比较要对所有r 个总体作两两对比,分析相互间的差异。根据问题的具体情况可以 减少对比次数。
6 X, l2 {. e$ N) Y+ ^' y9 ~" y& f1 J& Q9 B1 Y
对于上述问题,Matlab 多重比较的程序为 & ~7 p* q2 E. W3 `

' t8 r9 a) V/ }8 |% J0 mx=[1620    1580    1460    1500   
8 A5 G( @: y" u. S   1670    1600    1540    1550   
0 d% g# c9 |6 i7 F' R   1700    1640    1620    1610   
" q1 M) u- p4 b5 F" G/ z) `   1750    1720    1680    1800]; - f; k" R. l( V% y6 e8 c1 H# l6 L
x=[x(1:4),x(16),x(5:8),x(9:11),x(12:15)];
! i/ i( {) T- w! c7 u- b4 K4 hg=[ones(1,5),2*ones(1,4),3*ones(1,3),4*ones(1,4)]; 3 G) g! ~# _0 g" W
[p,t,st]=anova1(x,g) [c,m,h,nms] = multcompare(st); 9 S# E) i6 V& p0 Z. K2 \# S8 p
[nms num2cell(m)]
2 k+ e  l3 A& G/ l( U' {7 s  u
+ T4 i# V  o: S3 d$ x/ I2  双因素方差分析 % `# F. N' Y" x- v
如果要考虑两个因素 A, B 对指标的影响, A, B 各划分几个水平,对每一个水平组 合作若干次试验,对所得数据进行方差分析,检验两因素是否分别对指标有显著影响, 或者还要进一步检验两因素是否对指标有显著的交互影响。
2 C9 f! w  e& e. o/ a
0 i0 H9 l$ j. q1 N3 m' c# R2.1  数学模型
% G: @$ b$ D: g1 N
. P1 w. U) m# K2 ]% o2 G
) X: k* l* T: K& L; v  C5 z" K/ x! }8 c1 ^

& e8 F  h5 G0 s0 J2 T
% N* l8 C& g  H3 r1 d' z0 |' }- P. X; l* T+ ~

6 ~3 Y) `0 U, s1 J
# W5 a4 R6 b- l% e+ G2.2  无交互影响的双因素方差分析( N) M3 I) z2 @( C
如果根据经验或某种分析能够事先判定两因素之间没有交互影响,每组试验就不必重复,即可令 t =1 ,过程大为简化。 6 E& e/ `/ }, E, C3 L) `
4 [" |. V2 j) M
总平方和分解 6 d4 }, D  E. w3 ?9 s4 A0 c- A

3 ?. y0 ~3 M0 d
1 T4 U8 }7 a% D. W  }' r% G
) T7 G0 E* G; {1 w* d* Z3 R5 |0 C9 }" X, Z" @
各平方和的统计意义0 j. C5 ^# z! V. H

) K/ N6 W* ~3 y! ^' H. y% W+ X8 d- U/ q: J1 u! G9 o

! c" j* }7 q5 ?
) u0 w$ ^* w+ `, b8 e无交互效应的两因素方差分析表 0 j0 F2 b  @0 o. C$ ]

/ [- C" f  {  w' v* |* B; x! Z" Q, C; a* N9 W( O9 O
2.3  关于交互效应的双因素方差分析
) S7 _4 F5 l* z) m. P
. g; p0 @: k( _, F: A1 M, L! d; N# q3 ?. |

# f' k7 j* |  V& e
6 b; S  L. F4 K7 F2 s+ M( D! G检验因子 A和B 的各个水平的效应是否有差异,与 2.2 中的检验是一样的。  $ V" w% p9 {( s- y
: Y9 p* t& _/ W4 S3 z
将试验数据按上述分析、计算的结果排成表 7 的形式,称为双因素方差分析表。 ( C; L* h; i) L  D
0 d  i! _! q! ^2 P
双因素方差分析表( b0 W) m% L+ \
, k3 S  a2 u1 T- Y+ J) c3 C% n  ~, }

% a% C& C4 C, S8 o( f/ Z. ?+ a2.4  Matlab 双因素方差分析 :anova2
2 F( N- l! {: f. `* g# k统计工具箱中用 anova2 作双因素方差分析。命令为4 Y. l0 w3 U4 \6 B, e
& F% z$ o$ E# N
p=anova2(x,reps)
; Z  U$ p* n7 W( H! f3 `) B# b, l  Y
" |5 O; X6 |! g: P: w2 Z( D% V
4 i7 m" t" j/ Y5 G; K9 n
- e" q# A+ M0 p3 D8 u) ^- `6 o. y' p: v/ ^1 y* I' p
' f* j- v3 l0 ^  K/ R9 |2 I$ h' P
其中 x 不同列的数据表示单一因素的变化情况,不同行中的数据表示另一因素的变化情 况。如果每种行—列对(“单元”)有不止一个的观测值,则用参数 reps 来表明每个“单 元”多个观测值的不同标号,即 reps 给出重复试验的次数t。
6 d3 C: U8 t" ]9 R- I0 M
6 [) w+ ^% m9 a. ~  e9 Z7 }: v, x下面的矩阵中,列因素 有 3 种水平,行因素有两种水平,但每组水平有两组样本,相应地用下标来标识: + y& N& ~) H% E0 R7 Q5 H. [" y
5 O9 {. c1 u9 A" d
7 _* n3 S5 v; L/ T3 j. ]9 Q
3 O( k% N; z3 v  k' n
例 3    一种火箭使用了四种燃料、三种推进器,进行射程试验,对于每种燃料与每 种推进器的组合作一次试验,得到试验数据如表 8。问各种燃料之间及各种推进器之间 有无显著差异?
2 d, n9 _9 W5 h' d( ^1 S$ j
- ]1 H  p) \2 m, L7 g- N. t6 T. ]
9 h! v+ \8 L3 N- y+ P* [8 {4 z5 P3 v: r
编写如下的 Matlab 程序: 7 g1 _+ ^8 i, ?* X5 n  a# E

8 ?# o8 s' o% yx=[58.2    56.2    65.3
( u4 }: l- X  q* q) T8 x7 J   49.1    54.1    51.6 : q& q' K% j: O  R
   60.1    70.9    39.2
& y$ i( `. j1 _$ e. l- o& g5 e4 F" s   75.8    58.2    48.7]; 9 z- W/ |& X& J" U; t
[p,t,st]=anova2(x)
% L* s  X; I) O0 [$ |% B  q
/ O4 v( X- X* Z: [. P
7 V# h- w4 Y; `2 T* v
( E% Y9 ]7 x" N求得p=0.4491     0.7387,表明各种燃料和各种推进器之间的差异对于火箭射程无显著影响。
- r" \0 F5 r% l: D( e5 ?0 k
$ c' y$ d2 ~7 s+ A 例 4  一火箭使用了 4 种燃料,3 种推进器作射程试验,每种燃料与每种推进器的 组合各发射火箭 2 次,得到如表 9 结果。9 `% ]: U1 O3 Z# Q* ]% X

) a" h/ p$ i' ]% d* e* A
8 k; ^+ q" m( s0 d& Z
! F8 w4 l* A) @9 r& {3 A试在水平 0.05 下,检验不同燃料(因素 A)、不同推进器(因素B )下的射程是 否有显著差异?交互作用是否显著? , _% J3 x) q& d1 s

5 f7 f% h7 K) v) U5 H解  编写程序如下:
. ^! \! u. }9 D* O. U9 u
; F1 w* u# o8 h3 U  F8 p( ^! T5 \clc,clear ' S6 L5 L, M. j" h
x0=[58.2,52.6 56.2,41.2 65.3,60.8
$ m5 B7 A0 K' `- X49.1,42.8 54.1,50.5 51.6,48.4
5 {- F7 }6 X" ]; ^. ~* _60.1,58.3 70.9,73.2 39.2,40.7 5 O* ]( w+ t$ g7 a6 f
75.8,71.5 58.2,51.0 48.7,41.4]; * O: C, W+ y  u0 b8 @
x1=x0(:,1:2:5);x2=x0(:,2:2:6); $ U% Y$ Q# l. t- s, r1 y" M
for i=1:4    " }. M5 \- b9 \+ d
    x(2*i-1,=x1(i,;   
8 S, C) r2 i" R8 m' N    x(2*i,=x2(i,;
" S! B4 _/ Q2 }- ]9 h% w4 {end
7 h9 H0 S! p) Y4 S) P[p,t,st]=anova2(x,2)
5 d+ r* i( X6 M) J, F$ T8 r8 K: I) D% E; f

5 D2 \, [) P$ Y& l* M
  u6 ]/ U3 ?- l1 g8 @+ w8 G+ M1 B求得 p=0.0035     0.0260      0.0001,表明各试验均值相等的概率都为小概率,故 可拒绝均值相等假设。即认为不同燃料(因素 A)、不同推进器(因素B )下的射程有 显著差异,交互作用也是显著的。 ' {# o$ U! H4 Y. H1 n' D% G! y

  z) a3 m/ |8 e. D% i3  正交试验设计与方差分析
' S/ x  Y0 p& X, |3 v+ e前面介绍了一个或两个因素的试验,由于因素较少,我们可以对不同因素的所有可 能的水平组合做试验,这叫做全面试验。当因素较多时,虽然理论上仍可采用前面的方 法进行全面试验后再做相应的方差分析,但是在实际中有时会遇到试验次数太多的问 题。如三因素四水平的问题,所有不同水平的组合有  种,在每一种组合下只进 行一次试验,也需做 64 次。如果考虑更多的因素及水平,则全面试验的次数可能会大 得惊人。因此在实际应用中,对于多因素做全面试验是不现实的。于是我们考虑是否可以选择其中一部分组合进行试验,这就要用到试验设计方法选择合理的试验方案,使得试验次数不多,但也能得到比较满意的结果。, `3 n  a* N/ V. \
: Y6 }( [& h& Q5 v
3.1  用正交表安排试验  7 A- Q! P  D. }0 t7 D, H- f& [- D

& C4 q, c$ d% r% r! |. d; R0 ^; ~: r0 p4 x; S( Q/ L5 K1 s* J3 q1 X( W
正交表的特点
! s1 n# o6 v; H) F+ x$ d
" ]" S9 {% I) D2 d$ z6 F8 r( ^; `! W4 z$ a
这种均衡性是一般正交表构造的特点,它使得根据正交表安排的试验,其试验结果具有很好的可比性,易于进行统计分析。  用正交表安排试验时,根据因素和水平个数的多少以及试验工作量的大小来考虑选用哪张正交表,下面举例说明。  
9 x3 {% i+ Q" o9 O0 ?1 |
5 S! u: i2 j: l, O3 Z2 P; o3 P例 5  为提高某种化学产品的转化率(%),考虑三个有关因素:反应温度 A(℃), 反应时间B(min)和使用催化剂的含量C(%)。各因素选取三个水平,如表 11 所示。
9 n9 A# x4 S/ O: H. ^
) f* V1 T+ f& l6 r# j1 e; i* P) m& I' Y, h, @
* m: f% l9 C0 Q" m2 _9 O) x/ E

& P! {* d6 n) H! o& [
, d  y3 u, B5 _- F3 e/ ^! x
" F8 o  m5 G6 b* ~- V7 F0 N解  我们这里不作统计分析,直接利用 Matlab 多因素方差分析的函数 anovan 进行 求解,程序如下:
6 r4 m+ B( V$ T; ~- l: [- \* k
6 l& l) Y: {. q' D8 Iy=[31 54 38 53 49 42 57 62 64]; $ b0 r+ A/ |5 C" q' o. p# O0 P
g1=[1 2 3  1 2 3 1 2 3];
/ p% Z% o  v7 `1 M# \g2=[1 1 1 2 2 2 3 3 3]; & i5 n# |3 K2 S: Q" A( c
g3=[2 1 3 1 3 2 3 2 1]; " v- q# U8 R% T" B- I" Q
[p,t,st]=anovan(y,{g1,g2,g3})
5 J3 E2 r  q$ F9 t; D1 M6 q5 I- R/ M+ e1 c) X; J  d( ~* D1 q
0 O: V: n# a- Y4 {6 J
求得概率 p= 0.1364  0.0283  0.0714,可见因素 B、C 的各水平对指标值的影响有显著差异(显著性水平取 0.1),而因素 A的各水平对指标值的影响无显著差异。 0 p/ R6 z% w: i% g& x- U, S
1 \7 I9 Y) ^9 j- @" ~' n

* d* `+ Z8 s& _3 X( l: y- D  N; B& h& w1 G+ F, b
方差分析习题集
2 h+ ]9 X" U. y- R$ _1. 将抗生素注入人体会产生抗生素与血浆蛋白质结合的现象,以致减少了药效。 表 13 列出 5 种常用的抗生素注入到牛的体内时,抗生素与血浆蛋白质结合的百分比。 试在水平  α =0.05 下检验这些百分比的均值有无显著的差异。设各总体服从正态分布, 且方差相同。
6 |$ E) E) ]# V) b$ P+ _( [! E7 W; |5 R

6 D: l8 Q+ q$ _( j+ P2 Y1 t) @6 R  C/ ^
2. 为分析 4 种化肥和 3 个小麦品种对小麦产量的影响,把一块试验田等分成 36 小块,对种子和化肥的每一种组合种植 3 小块田,产量如表 14 所示(单位公斤),问品 种、化肥及二者的交互作用对小麦产量有无显著影响。
9 Q& ~" D9 c# e
; m: v, Z% X. u1 k" }6 O% U- f) e0 n$ ?
( Z& l9 I6 p) q. K  }
3.(三因素方差分析)某集团为了研究商品销售点所在的地理位置、销售点处的 广告和销售点的装潢这三个因素对商品的影响程度,选了三个位置(如市中心黄金地段、 非中心的地段、城乡结合部),两种广告形式,两种装潢档次在四个城市进行了搭配试 验。表15是销售量的数据,试在显著水平0.05下,检验不同地理位置、不同广告、不同 装潢下的销售量是否有显著差异? ( i; }) d, \; P2 D
& Q0 Z" R. ^) T
# V6 R% ^5 r  G  u0 |

/ B: `. P" ^$ S5 u' }+ \$ O* v8 Q  u2 Z' t$ J# l" h3 \
. g9 d! z! S" w/ c- P
————————————————
5 w$ Q4 M( M  B, B4 U版权声明:本文为CSDN博主「wamg潇潇」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。: M( h. Y. _2 C3 l& L, Q  c& d
原文链接:https://blog.csdn.net/qq_29831163/article/details/89508367! Z6 x6 ]4 q8 [6 i% y
8 @% Y$ j6 l, d9 x$ Y  i' c! d

; I# k/ \; j# h( N0 L: F( ]




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5