SAS相关性分析1 X/ |. W7 ~8 L4 I# B
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。' O# Z& t( Z) ]: g
回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
7 v4 |4 {. C8 b+ k- R0 }( R8 p
CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;
; X5 `3 |8 V4 j# Y* l( Q 3 ^( H$ A- q9 }
复制代码
1 S+ _6 d- g$ |CORR过程语句说明
9 \1 N' \+ n: M6 C1 H一、PROC CORR语句选择项
( Y' _7 |, k2 U2 T% FDATA=数据集 指明需处理的数据集名,缺省时为当前数据集。, V" G; \& T+ }3 |& W V8 u3 n
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。' F; f1 M% n* B* M4 I+ i
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。6 T) \: W. `5 z/ @1 }- M2 E
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
4 I+ w/ C8 B" ?$ O' M lOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。0 n% o" F2 I" ]7 \1 P
PEARSON 计算通常的Pearson积矩相关,是缺省值。
h w* c# {4 Y( O( w+ P! S( USPEARMAN 计算Spearman等级相关系数6 }, P7 K! j' q
KENDALL 计算Kendallτ-b系数。
! |& i6 F4 B/ ?, VHOEFFDING 计算Hoeffding D统计量。/ A$ O+ ^: p `* Z# E
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。: p: b& s# U Z) s
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。7 q+ j' f3 i" u7 \9 s% {' g/ z3 b
NOSIMPLE 抑制简单统计。' \2 C4 d9 _, P H8 [
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。
" I/ i) p$ t2 \$ U! RNOPRINT 抑制任何报表的输出。8 ~& o( @) S3 x U/ K8 F5 H! l/ \
NOCORR 在输出数据集中不包括相关系数。
# E0 K( E7 V6 v$ _; L9 K1 w1 TNOPROB 不输出相关系数的显著性测验。
2 \" K4 o& G' t. BRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。+ R; Z5 |+ @- D% J4 `: `* f$ V/ W
二、VAR语句
. w5 y% D7 y0 g4 NVAR 变量表
% H7 `9 E/ x2 |9 _. _5 T指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
" b4 I% e+ t- K三、WITH语句
* Q# d. k: h7 A6 k8 X# P# g$ ^WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。# D3 n6 u- h- k: {1 @1 F
四、PARTIAL语句8 h5 b% m }6 B- R2 l
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。8 D* ^% O" N, o2 \2 x9 B A
! D. M* N2 X; E' v应用实例# B3 P7 p9 c) M" r: e# i
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。0 n/ J: s0 {0 G Q: k* G: J
表1 累积温和一代三化螟蛾盛发期的关系数据9 }( P1 X0 F6 {; f- |& Q
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
) b. v6 f5 ?3 |+ W' K% sY盛发期 12 16 9 2 7 3 13 9 -1
- p5 ?8 p) h& n5 m) d Z● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;$ O5 P, C6 g- E; O
! E* w C$ W; _. ~/ v6 H
● 输出结果及说明
7 i: U4 g) }, i9 p& Q. t: f Correlation Analysis相关分析
& H }* Z. F# ?7 x( c 2 'VAR' Variables: X Y , u/ ~ l& e% A6 A# M! c
Simple Statistics5 M0 v5 g! C6 v5 e6 D
简单统计
) M- B1 o0 ?. n; s" MVariable N Mean Std Dev Sum Minimum Maximum
, y- i" n- j A W变量名 观察值个数 平均数 标准差 总和 最小数 最大数
) G; k7 r6 I8 q5 F7 C6 a" aX 9 37.07778 4.25199 333.70000 31.70000 44.200005 N1 E [7 a& | g" Z6 i M$ n
Y 9 7.77778 5.58520 70.00000 -1.00000 16.00000
$ S" w1 @* |1 E) }
" g( C. e+ E6 E/ @- q. d; t Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9 ! Z& M: r8 Q; [, i3 K# @
PEARSON相关系数
, U( x' m5 k a0 d' a2 q X Y: j* z+ g, x% R* F2 H9 M9 c
X 1.00000 -0.83714* c9 i: M7 z6 O1 T
0.0 0.0049
# `; O4 N: F0 a, p! m Y -0.83714 1.000001 W9 r! J! H& @ y
0.0049 0.0
( o+ `; Z$ \( s1 ` u4 T; q& H$ K可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。
4 N: j- }1 M G: w9 d) i例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。
' ]0 N7 `! l2 ~/ Y表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)8 m* [: k \& n- _ `, K
x1 x2 Y x1 x2 Y x1 x2 Y
+ j9 l' x, `) B9 |/ T, i26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
) Q# g" o+ V+ X0 C31.3 59.0 959 30.4 62.1 992 33.1 56.0 995( `$ ?& W$ u8 ?
30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045& _- F7 x6 }+ H- w, M
33.9 58.2 1022 33.3 64.5 1074 3 I) @( o! F/ z3 K. b+ s. p6 p2 l: d
34.6 64.6 1097 30.4 64.1 1029
) o& S4 `* J# ?( n. z/ x- t● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
9 A/ N( Z v# e2 y5 G3 L4 n 1 O1 s* |- w; f; w5 g' t) c
R& u4 S6 _ p! C1 E/ _● 输出结果及说明! {2 X9 v- s- a; |* o2 I0 o' m+ @
Correlation Analysis) ^8 T |5 m- {7 a& O
3 'VAR' Variables: X1 X2 Y / t7 W) }1 I3 ?. K" _% m
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
& t; M% M! @" i+ |/ k) ] X1 X2 Y5 q$ A& `0 w4 c9 ~/ g3 [+ L: Z
X1 1.00000 -0.71738 0.629396 O: W) V3 c$ {+ d: @, a
0.0 0.0058 0.0212
' @* H7 w; U" H% l" ]( I# ~ X2 -0.71738 1.00000 0.01347
9 B8 `' ^- o% H/ H 0.0058 0.0 0.9652
1 Z4 Z3 Y& U) S# y" t6 e0 o Y 0.62939 0.01347 1.00000
" d: x1 K9 `9 G) ~$ E' _ 0.0212 0.9652 0.0 7 @- i$ H& t2 J8 H$ t
由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。
3 U4 k g2 r$ |+ f/ o5 L+ f# \- e. R" [7 l. |
|