SAS相关性分析" n% x% t" m7 g+ j
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
. {! G/ Z6 E7 t* s5 E 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
5 O- u0 r; `/ f/ K1 _0 C: O6 B, V( m( B1 Z6 ^5 S
CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;
, T G' c$ ? d2 D" \' P6 Y3 G' v
# M7 S* \5 P+ ~复制代码
7 t, e) l5 {7 }* rCORR过程语句说明
/ {$ Q6 s/ I3 k' n. b一、PROC CORR语句选择项( _" ~* f' C ~1 K! y) U2 E
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。, G7 z' A9 S6 O% Y o
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
2 e. c; a9 c$ \/ k0 O8 z% qOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。; k5 V$ s' C. P; p, ]7 Z
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。2 w7 e- f9 j- h- _* Q+ i) A3 P0 k
OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。. @: }3 h" r6 j! f
PEARSON 计算通常的Pearson积矩相关,是缺省值。1 C; n& y; I* Q$ S7 e
SPEARMAN 计算Spearman等级相关系数! q! s! r8 v5 ]+ Q
KENDALL 计算Kendallτ-b系数。
* o2 V2 V, W- U4 ~HOEFFDING 计算Hoeffding D统计量。0 P0 [: _+ j; H3 d* v
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
# ]! n, ?0 B# q9 f. Z; s, LVARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
$ W7 p& U$ q, _NOSIMPLE 抑制简单统计。0 g$ S0 ]9 l- H9 X0 v4 I
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。
( {0 W1 l5 c2 D; ZNOPRINT 抑制任何报表的输出。
; b4 m: o( M4 wNOCORR 在输出数据集中不包括相关系数。
' M4 V4 @( @9 P& p: E7 o" Q; C1 q0 z; YNOPROB 不输出相关系数的显著性测验。
- I h9 E& l/ B6 ]; CRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
, `+ ?6 N0 C9 L' d4 l5 `二、VAR语句' h6 [4 A4 i" D: r U
VAR 变量表
r& s3 w& Z( V0 e. u指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。) b) j' l9 u+ p& K. S* ^+ H, g
三、WITH语句% l" t5 \2 x# p; x3 s* t
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
) W. \& _, y$ a* o/ }0 h, _四、PARTIAL语句
3 J6 v* U+ W7 c' H* A, V0 o2 vPARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
' U+ B( K2 L$ g. i8 L$ k4 W& W+ C) G9 K9 B7 E
应用实例
; F$ a4 {( u, H7 {7 r: f J6 y0 ?例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
2 i r8 V( F2 c8 k$ U, f3 b( N表1 累积温和一代三化螟蛾盛发期的关系数据) I* [' n, a/ M* m9 E* _) N
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
# j+ H) q4 Q7 {4 A" [9 l. l4 gY盛发期 12 16 9 2 7 3 13 9 -1; U H& h' r( v$ U3 P
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
u8 L4 x5 j* d/ m3 q
G% r/ o) t( y; y ● 输出结果及说明! t9 ?5 W; L I+ P: r4 W
Correlation Analysis相关分析# Z! @& _$ _) ]' C. N" d
2 'VAR' Variables: X Y
! m7 E- |6 v# k2 Q4 _ Simple Statistics8 r8 P3 I, J: ~1 b- x3 q, Q/ t
简单统计
& m1 J, p. t4 p. ~Variable N Mean Std Dev Sum Minimum Maximum/ q8 n2 t3 N: Z* i, ?# k6 N
变量名 观察值个数 平均数 标准差 总和 最小数 最大数
. Z/ V0 O9 {( A% q6 O3 N; I: [% uX 9 37.07778 4.25199 333.70000 31.70000 44.200009 ?% m# R% U9 r- H, u; m
Y 9 7.77778 5.58520 70.00000 -1.00000 16.00000; M# c; c2 ]4 C, B2 _* F/ J+ x* R
- N) |7 F) } y2 p4 O9 m% D
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9 & F. M) O% u6 m! F+ n% ]( ^
PEARSON相关系数% P. U8 A b& x+ }8 d
X Y
8 C/ Z& i$ _% g; M5 @ X 1.00000 -0.83714
~$ @$ e8 L( W" ~) \3 n 0.0 0.0049
: |+ U# e4 w/ x5 H Y -0.83714 1.00000
+ b3 r" S3 W' P, V 0.0049 0.0 ! E1 u. Z& I8 `5 G* i9 {- j
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。. ]+ X! i: {8 i) ^! h
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。% j+ C7 x% u, X1 \
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)! M7 Y# q4 b; @) v, ]& z
x1 x2 Y x1 x2 Y x1 x2 Y
9 }# Q% H: O. ^1 I4 c26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
% O4 g1 B6 I9 j! q2 N: q31.3 59.0 959 30.4 62.1 992 33.1 56.0 9950 L: K! b: T- C! s d$ s
30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
. J* b" e3 u0 L9 E" }7 v4 S6 h* I6 d' y33.9 58.2 1022 33.3 64.5 1074
9 @% I% B- Q* L+ H34.6 64.6 1097 30.4 64.1 1029 9 f! K9 o7 {$ N( m9 P3 k# H! J
● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;8 x- k- w. l0 A- [; q7 p
1 ^ `% h* ^; z$ W& K9 R5 ^9 y6 T
3 X9 o0 Q& L$ G( h0 a5 A
● 输出结果及说明8 X; z" g; F$ u
Correlation Analysis
s& j* o3 M8 y0 K 3 'VAR' Variables: X1 X2 Y + q% c* _7 O, O8 a8 H
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
+ G( ?- e8 O% V8 h' s" B* O X1 X2 Y
1 x h& t y3 O( X, s X1 1.00000 -0.71738 0.629398 H" ^' a/ [# R' \# c- M' O. M
0.0 0.0058 0.0212, N: C5 W7 W7 x% O
X2 -0.71738 1.00000 0.01347
* Q) D2 e2 _) b 0.0058 0.0 0.9652; Z) K7 A! D- A% N
Y 0.62939 0.01347 1.000007 R4 r1 H- [; }: G4 X
0.0212 0.9652 0.0
' K$ z2 e b+ S3 W由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。
6 @0 B, V; v$ s4 y9 S9 d
F1 a" @' V2 ^& T, I |