- 在线时间
- 0 小时
- 最后登录
- 2011-5-21
- 注册时间
- 2011-5-21
- 听众数
- 0
- 收听数
- 0
- 能力
- 0 分
- 体力
- 3 点
- 威望
- 0 点
- 阅读权限
- 10
- 积分
- 1
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1
- 主题
- 0
- 精华
- 0
- 分享
- 0
- 好友
- 0
升级   20% 该用户从未签到
|
多元约束Welsch-Kuh距离与
- E% u$ g2 B6 y6 Y7 ]0 U/ w; M/ \多元约束Cook距离
( v! [: |, V ]- A" B5 q) I$ b" T W
$ P% h" E0 b7 T# X! r9 l' |唐年胜 韦博成$ {* f" p8 |" X
% f/ s) I& q& U, @4 w
摘 要
3 B# F9 V I; ]- e2 w! c; f
) e! v3 W' D" S3 U3 |" r! ~& [对多元约束线性回归模型,本文讨论了约束最小二乘估计的影响问题,定义了度量影响的多元约束Cook距离和多元约束W-K统计量,给出了其分布,建立了约束W-K统计量与约束广义相关系数之间的联系。1 }# |7 W& d( P1 V/ _+ Q; ~& X
关键词 多元W-K统计量,多元Cook距离,影响,约束,广义相关系数
7 ~% l, w: P" Q" h! Z分类号 AMS(1991) 62F; CCL O212 J4 Q; x7 l q+ M) S! [! p! Q) J0 W. c
2 c1 u& X" `% uMultivariate Restricted Welsch-Kuh Distance and . {1 v2 V, W, e% E" \3 S" o
Multivariate Restricted Cook Distance
# R- ] G9 @7 H
# |! y) c4 I2 T* o# | R0 O: @9 {Tang Niansheng
6 Z# L7 L$ D! I& b! P' \: \, Y(Adult Education College,Yunnan University, Kunming 650091)
. C$ c; H' w9 pWei Bocheng
. {. g) M( P2 w- T(Department of Applied Mathematics,Southeast University,Nanjing 210096)
* H# z: \( z$ Q# r
3 M+ A/ o7 S1 S; yAbstract
) \5 ], u. k( n) i' l7 u' L4 @) t
4 ?: A5 ?4 R( B4 O! D4 w8 FIn this paper,the influence of the least squares estimates for the multivariate linear regression models under the restricted conditions is discussed,and multivariate restricted W-K distance and Cook distance is defined as measures of influence.Their distributions are given,and the relationships between the restricted W-K distances and the generalized correlation coefficients are also established.; V' a) \ k! [
+ ~+ J! n1 C% u+ u- i! f
考虑多元线性回归模型
8 U: H# _' ~% L' P3 _ C2 E; y+ `6 K% n6 K2 g0 Z
Yn×p=Xn×mBm×p+En×p, (1)
; S. A- ^2 t @8 I, O0 z
5 f: L7 S9 A9 v+ O# n; p5 n其中Y=(y1,…,yn)T为因变量的n次观测数据阵,X=(x1,…,xn)T为第一列元素全是1的已知自变量设计阵且rank(X)=m,B=(β1,…,βm)T为回归系数矩阵,E=(ε1,…,εn)T为随机误差阵,ε1,…,εn相互独立,且E(εi)=0,Cov(εi)=V(i=1,…,n),V为正定阵,则由[1]p348知模型(1)中B的最小二乘估计(简记为LSE)为,协方差阵V的无偏估计为,其中P=X(XTX)-1XT,残差阵为。然而,在实际问题中,由于主观和客观的种种原因,人们或多或少对B有些先验信息。即是说B总有一定的约束。
' N+ Q4 S3 L" Z( k2 h, G# R 记模型(1)在约束条件AB=0(A为q×m阶行满秩固定阵)下的模型为模型(2)。
5 ?6 N& W# |) d. b% k由[1]知模型(2)中B的LSE为,其中F=AT[A(XTX)-1AT]-1A,协方差阵V的无偏估计为,其中W=YTLY,L=I-P+Q,Q=X(XTX)-1F(XTX)-1XT,残差阵为。本文约定,若A=0,则F=0。
+ |6 V) j) F/ f$ l- v 考虑在模型(1)中剔除k个数据点后所得的一新的多元线性回归模型。! n, T4 H) Y, P. M5 E6 o- d: O
" v7 O# v( ]9 u9 i, k3 w7 R) | Y(I)=X(I)B+E(I), (3)
, |% {+ j: z9 ^' D9 y/ J( c# c$ \+ V+ [7 ^4 W# D2 m7 I& |
这里Y(I),X(I)和E(I)的意义同[2]p350。
: n, }- d! `8 z: J 记模型(3)在条件AB=0下的模型为模型(4)。 d' F% j8 A l% X1 e8 U4 k
记模型(3)和(4)的相应估计量分别为,,和,,。
6 i3 |& C" p( G 对模型(1)剔除一组或多组数据对回归系数最小二乘估计的影响问题现已有许多学者做了大量研究工作,并得到了许多很好的结果,见文[2-5]。文[6]对模型(2)在p=1的情形下讨论了约束W-K统计量与广义相关系数之间的联系。本文对多元约束线性回归模型(2)考虑了类似的影响问题,§2将文[2-7]的结果推广到模型(2)的情形,得到了更一般的结果。
- {- r& z! t" W' p* o; v0 P6 J' B2 C+ g" \
1 预备引理
' Q# A& k" h' k3 v
5 ^ v- J I+ E5 c! o# ? 引理1 在模型(4)的条件下,若E(I)的各行向量均为正态随机向量,且n>m+p-q+k,则% \* i5 j% F! { u; x+ }
①
, d. \# b) |; Y4 l- x+ j8 l: t- ~
! U/ ~* o7 `& q( k5 w ② 相互独立,$ K) S$ Q) O% v( H5 b
③+ z$ s T9 }6 n: e/ `" C; s0 B
' s- f* H- a6 oDTX,YI=DTY,D=(di1,…,dik)为n×k阵,dij为第ij个元素是1其余全为0的n维向量。1 @+ p# @9 J: s, e, i
证明 用同[6]完全类似的方法易得①成立。现证②,记R=L(I)Y(I),则
! h+ R* M4 a: g: l/ ^3 [; ?9 Z0 t0 {1 E; S
" @" ?. X2 z# g: X9 a
) j1 a/ Q( g. c% t
由文[1]知和R独立和Vec(R)独立
* ~+ M2 y) T$ A。而后者是显然成立的,故和R独立,从而与独立,即得②成立。最后,由W1=YT(I)L(I)Y(I),L2(I)=L(I),rank(L(I))=n-m+q-k,L(I)X(I)B=0,及文[1]知③成立。1 [4 D0 |0 [" |- G: a! ~( ]
4 Z" R# g6 h, w证毕' S2 E& r# R0 `9 L
- [. H! f8 m; ~+ v( I, o 引理2 对模型(2)和(4),若记且假设E的各行向量均为正态随机向量,且n>m+p-q+k,则
( Y' U2 o5 Y7 Y ① W1与W2相互独立,且W=W1+W2,W2~Wp(k,V),W~Wp(n-m+q,V),1 m' v# R( ~, h8 E+ f8 y
② 0 G* q }/ L; X v8 g s/ s( ~7 L
特别地,当k=1时,
# h4 ]; x2 ^0 l" ?6 B1 @- t 证明 记L1=L[I-D(DTLD)-1DT]L, L2=LD(DTLD)-1DTL,W1=YTL1Y,W2=YTL2Y。则易证W=W1+W2,L=L1+L2。由此即知L1和L2都为投影阵,且rank(L1)=n-m+q-k,rank(L2)=k。因rank(L)=rank(L1)+rank(L2)且LB=L1B=L2B=0,故由多元Cochran定理知①成立。
8 k0 l( Z: r, | 由Wilks分布的定义及①和引理1③知②成立。
! G; g6 d9 S0 L3 E. j# [/ S7 V' Q5 \% n- B) n; n- W. \4 j' J1 D
证毕
5 i; ^- A5 R4 Z" d1 L; {) u8 |. z6 t1 U( t$ A* ^8 F5 e
2 主要结论2 V9 I$ t' ^! V* I0 p
" x$ }8 C% C" i 定义1 对模型(2),称/ P. j' J. [, w$ d
% R: W: W- v7 ?( I+ G) v: m, \ (5)* f: f/ i; Y2 {0 [/ E
3 i" F i3 R! e% T- ]9 G
为k个数据点的多元约束广义Cook距离。对不同的M和C,可得到DHI(M,C)的各种距离和统计意义。6 t- ?( ?- x1 S% B' R7 b9 _
定理1 设PI-QI的谱分解式为PI-QI=ΓΛΓT,Γ为正交阵,Λ为对角阵,其对角元素λ1,…,λk为PI-QI的特征根。则在引理2的条件下有
# u- m' T7 {* [6 H+ S. R) y, [$ o6 F l) Y. }; l
(6)$ J) }2 I: i3 H5 S$ Q9 A* R k4 I
4 M) ^& V2 M( r2 w1 p (7)
/ C9 m$ p! L+ l
' J4 A% V5 N5 ] (8)
5 l: a5 l( U( u" b) W, K1 L& Q6 ~- d; X* S: m( }9 k5 Q
其中h定义为: O& w: Y2 O0 Q& o6 }
& Q9 T2 H# {6 z
( \1 M. N4 M9 Z
' ~+ @+ ^; P# vh1,…,hk相互独立且服从p元正态分布。
4 Y# E5 E2 M1 U6 F) O7 x9 m 证明 由引理1①和(5)式,并经直接运算即可得定理的结论。
6 `5 k. w: V- b( s& d: \ B3 J/ t, Q: I- e& T6 w( x3 e" m
证毕5 m+ n- V# T+ G. f4 P% j
8 W2 \1 ]7 r9 w4 A: M
特别地在定理1中令A=0且k=1,则得
' h1 x3 G# \* B4 G 推论1 对模型(1),有
: q t; T) g) D& h4 C* i L,其中。
* D% \% Y' ^/ ?1 m, m( m; a' o6 n 这与文[2]、[4-7]的相应结果一致。因此定理1是文[2]、[4-7]相应结果的推广。& n$ B% U* i4 I h- E
因为当k>1时的分布较复杂,因此,这里只讨论k=1的情形。7 a/ S# u7 B* I. n# u! l! v
定理2 在模型(2)的条件下,若ε1,…,εn均为正态随机向量,且n>m+p-q+1,则,
& o1 L& I' n( ~
' |' S5 C2 a F: x# o8 {: W9 Y都服从Beta分布
1 q; U- x+ N+ P% T 证明 记,则由定理1知上述统计量全等于τ2i/(n-m+q)。因此,我们只须证明。而由引理2知
6 m% s$ _5 T c; u
1 Z' C2 a! K, U3 o9 x2 Y3 C4 v+ f$ o% z( i: r
\: r- H$ M, g# r由此即得。. u2 ~6 q' C$ Z9 S0 Z
, I/ t _$ D: v4 L0 t, W0 F- [
证毕
+ @- @8 Z6 }; x+ }/ e7 ]$ S" ?4 A" z2 P; |' F9 o; }2 d
特别地,若A=0,则得, t* S6 S3 L( L6 T# G
推论2 对模型(1)在定理2的条件下,有
" g$ l+ E6 j$ r' q
* J2 X) r9 r" y" k, X" J- y' R& T: g( H
" V" r- I G, E5 k) `0 {! s
都服从Beta分布。 {5 U% i0 d% F/ t* N( b
定理3 在定理1的假设下,有( W! v; n+ E( A9 N7 [4 N
5 k+ E3 a& f# Y (9)
* j0 b3 E! O- ^) s0 z9 o, z
6 T: l6 T; b5 \# P' A! E# k, q& H (10)
& a! ~! f, s0 D& M! [) F
4 c' O) i! @+ ?) Y (11)
5 n7 {+ s* E- P) Y/ w3 C7 K `' N
其中相互独立且都服从Hotelling T2(p,n-m+q-1)。
, {& I+ g6 j8 m 证明 由引理1①和(5)式,易得(9)、(10)和(11)式成立。为证定理的后一部分,须证h和相互独立。由h=(I-Λ)-1/2ΓDLY和q-k)YTL1Y,并用同引理1完全类似的方法即得h和相互独立。因此,由引理1③和定理1及文[1]知t*2j~HotellingT2(p,n-m+q-1),j=1,…,k且t*21,…,t*2k相互独立。
; g7 ^$ y8 Y9 [8 ~; I, A
' L* C# V, P' t4 Q0 o证毕5 r9 z- ?- Z, O
; @, p1 V$ L, r+ J1 Z8 O( a
特别地,当k=1时,有. v9 r" S. W4 F
定理4 对模型(2),若ε1,…,εn均为正态随机向量,且n>m+p-q+1,则/ q% ?( ?+ a# \9 f9 ]/ V
/ @( ~: n1 }3 p. E. @9 _ D7 Q# j. a8 o' u# Z% N- q L
' ?' _+ q) F: G) m" {( K
都服从F(p,n-m+q-p)。
0 k N- B1 E4 y3 s 证明 因为在定理3中令k=1即得上述统计量都等于,其中,故只需证T~F(p,n-m+q-p)。用同文[2]p362完全类似的方法易得与相互独立。因此,由和定理1及文[1]知τ*2i~HotellingT2(p,n-m+q-1)。由T2分布与F分布之间的关系即得
) [/ d0 B# y. P6 D3 @
u2 }, `9 i" x0 q( u/ ?8 A4 l. p T~F(p,n-m+q-p)
0 Q5 r) X- x3 N, i. X
2 s/ G, c7 O+ a% S: ~. V' N证毕
; s9 V% `8 {1 @+ u2 D
! ^' T8 G- O% x" X' E p* o9 z4 l 现考虑k个数据点的剔除对XI处拟合值的影响。由一元线性回归分析方法得
8 g. e5 b" Y. {; u 定义2 给定模型(2),k个数据点为XI处拟合值的影响可定义为: f, g3 J4 n& x
0 C: P( y: ~: Q; A7 z- d- b: o& ?- h- `
7 _5 z" z* Z3 ^8 H; s: @$ W称WKHI为多元约束Welsch-Kuh统计量。注意,此时WKHI为k×p阶矩阵,为使用方便,考虑W-K统计量的如下形式:
0 Q* o a( n+ [% r$ k
( n# V: k0 F4 @6 d
) p, f* x4 y# S" f$ ?
4 e7 `; D+ i- O* j3 X' K4 P% @由引理1①和定理3即得0 D- ?' |/ E7 n
/ D9 w0 R! R4 ~/ i
! [' u) v' r* O, ^
- G6 { Z2 P+ {/ h8 M由此可知,多元约束W-K统计量与多元约束Cook距离具有相同的统计意义。这与一元线性回归的情形是一致的。
1 C# L( ]+ _! X7 r! V 定义3 给定模型(2),k个数据点对XI处拟合值的影响亦可定义为
/ a) P, f$ }9 y% B+ q6 \
$ X5 a( }; f) Q' z. U9 A5 A* _3 Q& N" C3 O6 l
. a& U% Q" d/ _9 |8 l9 P1 A4 V 定理5 在定理1的假设下,有
0 S$ ~+ L8 M( r% B7 O# B9 R' t- ?( ^6 v1 n* |& Q
$ D% B0 Z2 p k$ G# T3 g3 H/ [7 o( X) |7 c
其中GT2为Hotelling广义T2分布。# n! N5 w+ L# C! o$ @+ r# U. e9 N
证明 记则
; @1 E! A$ S5 Z$ N" K& i5 N4 u4 Q. T# I- k
(n-m+q-k)-1WK2HI=tr[(h*Th*)U-1]。
. a- K" q/ V M. V+ X! B8 n
5 y, s* V3 J( \9 Y由定理1知,故h*Th*~Wp(m,Ip)。又
0 p. F7 \$ v* ?6 k8 a
/ v, k0 b' l+ v7 K, h9 }7 p! E4 o
1 f8 P* z+ u; R0 Q" g) _7 V' k
9 V# c# r; W* F1 g6 \2 a6 ^+ Y且与h*独立,故U~Wp(n-m+q-k,Im)且U与h*Th*相互独立。因此,
- k8 |8 n" U) p% U% U
/ {* K `" I+ G4 l4 z tr[(h*Th*)U-1]~GT2(p,m,n-m+q-k)。$ b' z) n$ i4 S$ K9 F: @& i! a
* A0 O5 h8 v7 C. H
证毕
, h& D8 J+ V" B6 g, C6 O" K
/ p/ L% ~$ `1 i* {- h% P 现考虑第i个数据点(yTi,xTi)的剔除对xj(j≠i)处拟合值的影响。" `. I+ m" a4 ]% E3 B6 S
定义4 给定模型(2),则第i个数据点对xj(j≠i)处拟合值的影响定义为:7 ^2 R4 a0 ~. U O7 G" L
8 M3 V' ]6 X! ]: E3 { y0 f7 y. m }7 _
# o R9 J4 N1 `0 R5 Z
此时,WKTHj为p维向量。因此,考虑其范数
9 }" [; A; Y5 N6 c) E) n' l' r- g; `; j1 l- @ J8 y
(12)( n# O* f% |4 N0 H8 N/ q( h
0 [, i9 y5 P. _+ }
定理6
$ Y: {! e9 F7 f( K# K4 @1 a8 e c. p% k( ~9 p# q
(13)3 I$ }$ w2 _, J2 f& G. N# m( z
' _& ~& \( `( G1 @! B" v
其中ρ(1)H为Hotelling广义相关系数[8]。
( w" i0 ^8 g. g0 M3 l" i( t5 {' g 证明 记pji=xTj(XTX)-1xi,qji=xTj(XTX)-1F(XTX)-1xi,ωji=pji-qji," @: B; R5 s- r* G
则由引理1得
7 V: \' ]* e8 j( E. K
7 w+ ?- V1 \9 A% {# Q( k7 B: S( y+ `
k0 e' m8 k$ b$ r4 ]7 m, J2 O将上式代入(12),并令ωjj=pj-qj,ωii=pi-qi,得* p3 j& o: Y. k
2 O1 g3 r8 Q X. ]1 P$ z (14)
# e) X3 M2 v! r7 D8 r7 i4 l
% P. N( H' P, N1 @1 h& G7 s9 C1 X由于与在约束条件AB=0下的联合协方差矩阵为7 I0 o1 Q) j, \
% X r+ \2 c; f# C: l
) U9 z! [& }3 m; W. X9 A0 m; I9 f8 \
则由[8]P74知与的Hotelling广义相关系数为
' C. r# e( h& K1 X/ A: W) o" ~. T0 b5 G ]# n% _
(15)) Q/ k+ @% r1 ?& p
* Q% O1 K% p m/ f+ ?+ f
因此,由(14)和(15)式即得(13)式。
. L7 g: m! J+ o" i1 A( k+ D; e2 M" e1 u" z. g6 E. X
证毕
* i+ U/ d2 U% J2 f. C" b' K* O
$ y; z4 B7 C. r. L+ D; W3 ? 由定理6可知:第一,第i个数据点(yTi,xTi)的剔除对xj(j≠i)处拟合值影响的大小仅依赖于(当i固定时)(j≠i)与的约束Hotelling广义相关系数ρ(1)H,|ρ(1)H|越大,其影响WK2Hj也越大,即与在AB=0下的相关程度越好,第i个数据点的剔除对xj(j≠i)处拟合值的影响就越厉害。第二,WK2Hj≤WK*Hi,当j=i时,WK2Hj达到最大值。这与一元约束线性回归[6]的情形是一致的。
* ]- U# t5 l1 Z4 V. G7 E- k 致谢:作者感谢审稿同志提出的宝贵意见。5 G: [/ R7 s. d: {
1 v- d; b8 H: n基金项目:国家自然科学基金和云南省自然科学基金资助项目。
! {( i; u. D4 F1 A {# b作者单位:唐年胜(云南大学成人教育学院,昆明 650091)1 @& U, Z6 G. D* h1 l1 M; c! }
韦博成(东南大学应用数学系,南京 210096)1 [+ l! c0 T g% ]. _
: M7 ?& n1 J( {& ~! _/ q
参考文献$ C1 m7 |3 w" A! X- k
3 I A6 Q! q p% X6 w0 a
[1]方开泰.实用多元统计分析.上海:华东师范大学出版社,1989;145~159
5 ~' u/ c2 y e# g' N, N[2]韦博成,鲁国斌,史建清.统计诊断引论.南京:东南大学出版社,1991;358~362
' x9 Z0 j9 E5 f2 P[3]鲁国斌.多元线性回归中度量影响的置信域体积比统计量.高校应用数学学报,1993;8(2):149~1562 w- O6 }1 T4 i: ]* o0 S% F5 E: l
[4]Hossain A,Naik D N.Detection of influential observations in multivariate regression.Appl Statist,1989;16(1):25~37
' F6 R9 r$ D- s$ y4 M( ~% c[5]岳珠.多元线性回归中强影响点的判别方法.高校应用数学学报,1987;2(4):343~351& F6 i0 j( f) X, t U
[6]唐年胜,王学仁.约束Welsch-Kuh统计量与广义相关系数.数理统计与应用概率,1998;13(3):239~246+ t n* u2 h; }7 ?" k0 {
[7]于义良,吴诗怺.约束Welsch-Kuh统计量与约束Cook距离.应用概率统计,1981;7(2):136~142& k$ D8 |: x: W+ _% X
[8]王松桂.线性模型的理论及其应用.安徽,安徽教育出版社,1987;71~74
2 w; @6 I$ u) c5 y7 J3 S J' d* k" `& Q) c+ U
|
|