SAS相关性分析
V- M' V6 C' |# W) B 在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
" R6 x% I* X+ k: Z5 W% x* n 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。8 _3 s# w \3 D( R" r) f$ V
' W% Y+ E* s' I7 N8 y0 B
CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;9 `# @3 r9 z) B6 ?" }
" e; W3 E* Q& p4 |. K' b5 ~复制代码
% o1 {4 W2 P6 T& Z, zCORR过程语句说明) g* P1 u5 q; J8 m
一、PROC CORR语句选择项
- ~" L0 H- e/ d1 R8 r9 cDATA=数据集 指明需处理的数据集名,缺省时为当前数据集。 e" R! h; x. I$ c& K
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
4 j. b- e& _' @3 z0 ~0 N9 e. FOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。
" |+ p6 `5 B r; h# zOUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
; B2 C% D8 `: b9 _) `5 ^OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
S, [' I6 Y+ z9 N5 Q9 P% u$ P. J5 CPEARSON 计算通常的Pearson积矩相关,是缺省值。: O5 \" L. @. P$ z' f0 g
SPEARMAN 计算Spearman等级相关系数9 x1 S5 ]6 g6 y
KENDALL 计算Kendallτ-b系数。* Z4 A) {; ?7 @) d6 g- w. L
HOEFFDING 计算Hoeffding D统计量。) X& i3 _4 q6 x. i/ E9 F) L% o! g
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
2 r* g4 N$ h' n7 {+ [* CVARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
0 F; y; v& p$ pNOSIMPLE 抑制简单统计。4 s2 u7 t6 ~. Y3 S
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。: v7 Q# ^3 P/ G* v. [& q
NOPRINT 抑制任何报表的输出。4 f% \3 i5 ~% Q% M# o1 H$ ?
NOCORR 在输出数据集中不包括相关系数。
' W. L/ [6 ^7 M F8 q& h7 PNOPROB 不输出相关系数的显著性测验。
& q3 m! I- Z& ]RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
! T' |& Q* x: f0 B二、VAR语句
6 |2 d6 q* X* v% Z, ?VAR 变量表& e) l; Z7 [. l3 {, X' \
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
8 S [! E( X) X n5 ^三、WITH语句6 B0 f d9 T5 Z4 {4 t6 z5 }6 v4 w a8 q- C
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
! e1 B }* B, N# K四、PARTIAL语句
, A/ a: d& \2 ^% S2 a4 w- S( w6 I$ LPARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。; I% A9 t# M) H7 }
* h1 G. M! ^6 n7 V5 l1 x& _3 T应用实例
7 \" f( M! \5 U例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。* ~+ [; Q3 t5 f4 K) W
表1 累积温和一代三化螟蛾盛发期的关系数据8 q J0 v5 |* Q! ]: p S
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2! V n9 M* e. q% F* |4 f
Y盛发期 12 16 9 2 7 3 13 9 -1
6 O8 p5 d8 O/ [- E5 {● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;: J5 {! A7 ~9 |' ^7 R
7 Z2 I6 ?# L& U: S" x- Z ● 输出结果及说明7 c$ K( @* j* B1 U! J. |1 V/ h$ y$ k
Correlation Analysis相关分析
* T( L; A: V6 B- Q; m; x3 } 2 'VAR' Variables: X Y
: e/ ?& |! x* U5 }! H- f Simple Statistics0 w4 w# s s/ s2 N" Q6 r" k
简单统计
% g+ }- q: `5 c% }0 _1 T5 pVariable N Mean Std Dev Sum Minimum Maximum9 [7 S. u' _1 h m [7 k
变量名 观察值个数 平均数 标准差 总和 最小数 最大数
& f& ]6 \* h4 j; GX 9 37.07778 4.25199 333.70000 31.70000 44.20000
1 d g6 d* @2 k7 pY 9 7.77778 5.58520 70.00000 -1.00000 16.000003 v+ d" |, C, m# h! v& Q
: L o, E& }" H& i0 [
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
7 M8 |) E9 F. f7 ~0 W3 b/ G8 G4 k PEARSON相关系数4 T( G! n5 F) t3 W4 ~( p
X Y5 Q3 Y' f: h/ E8 R8 y5 `
X 1.00000 -0.83714* H( V. h: @; S: a
0.0 0.0049) D. L5 |2 C; k, Z$ u0 m/ s; o% S! r
Y -0.83714 1.00000& ~0 m4 ^2 g" K: g
0.0049 0.0 / j/ l' a- V$ c; N% b' ]
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。" t, I$ v1 u1 b+ w B
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。) t3 l3 l8 @, J
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y). h+ a/ e ?5 }$ Q6 _, o1 P& H' C
x1 x2 Y x1 x2 Y x1 x2 Y; U+ h: V6 i% v! A% Z
26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
( m/ t. m0 Z! {31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
) v# W n. K& ]30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045$ }1 F) k' I; d+ |! x
33.9 58.2 1022 33.3 64.5 1074 * C8 ?& h/ I0 W% v5 O* }
34.6 64.6 1097 30.4 64.1 1029
0 ^) h1 s( U5 P3 c● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
2 d% E. f' n- z2 L; ^0 i5 X
4 P: V- W9 o9 a- d* q' u 3 H* m! s# e7 m& o$ R2 u! x
● 输出结果及说明" Q% u" u( p' A! J! J
Correlation Analysis4 p u. V9 f9 }+ \
3 'VAR' Variables: X1 X2 Y 7 y' l$ i1 `7 S- W$ q9 L- C
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
! ]! ?5 H) r! |5 t X1 X2 Y) X# [: i$ k [4 @9 k4 i; N
X1 1.00000 -0.71738 0.62939# R6 ~+ C/ t( r* n( w
0.0 0.0058 0.02124 `( j9 ]/ [$ I' H* ?8 m& x. k
X2 -0.71738 1.00000 0.01347+ \6 k' [: z# K! V
0.0058 0.0 0.9652: T' ?! {7 S' D9 G' U2 B
Y 0.62939 0.01347 1.00000
3 Z D1 X' B3 }& f. _2 @% ~ 0.0212 0.9652 0.0
0 G9 J' e: R2 C1 I: [" ]- g1 b" l由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。. Z/ Z) J; r- ~& y
, w1 @3 Q5 M( Z6 N3 J% H |