SAS相关性分析
7 I# ?6 H5 D' R9 v4 S3 c& r 在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。# K' Q( v3 |2 g8 U7 P$ k4 }# E
回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。% N4 `3 H2 N2 Y+ N: t
6 J4 A* R+ V/ L4 yCORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;1 q) m& n- I6 m3 ^3 J
' M1 j' t/ Y! o$ M. t( }复制代码1 @4 S! D! x( }0 M% c8 K* y' \
CORR过程语句说明: x' q! M1 Q. p3 N' ?
一、PROC CORR语句选择项
" z7 ? a+ s% n/ \ qDATA=数据集 指明需处理的数据集名,缺省时为当前数据集。+ x+ ^- B5 ]) s0 t9 R
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
# W4 ~1 G6 p% E3 G) s, KOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。: e# e9 s. Y' |& C: ~
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。3 F1 {+ H3 K/ M/ `
OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
* F9 s0 S9 H! K( P6 RPEARSON 计算通常的Pearson积矩相关,是缺省值。
3 ]' t3 a- \ O" ~6 ]( aSPEARMAN 计算Spearman等级相关系数2 F7 x+ y. p t4 T, p
KENDALL 计算Kendallτ-b系数。
" h/ j( g5 S# b4 P* A' J+ DHOEFFDING 计算Hoeffding D统计量。" S1 i* R! t! o2 H" K
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。+ K" J! j! ~: S, P2 e t
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。0 ^7 f% Y, _9 R0 K. q
NOSIMPLE 抑制简单统计。. H' A9 e/ ^4 }( ]
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。
" ?7 j% p/ l5 o( ~% L$ r8 J0 j, l/ h4 A5 V$ zNOPRINT 抑制任何报表的输出。
) {! x; _# U$ b, xNOCORR 在输出数据集中不包括相关系数。
! u3 j- X5 O8 F' l$ jNOPROB 不输出相关系数的显著性测验。
4 I' J h4 d" q8 E& pRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。5 N1 }) w$ [! D+ m. a
二、VAR语句5 N7 h+ x2 z* `/ ?" @, ]
VAR 变量表( t% |+ M6 _% z# h2 X$ y; n- c' }5 r
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。0 _6 y& d$ `. O v9 O7 U# M
三、WITH语句
- W/ ~: x N$ O* M- T0 BWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。 a7 x% X! a: X$ y' F# x# \
四、PARTIAL语句
# {( j# h0 m4 pPARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
! @* O h1 Z+ a! z
* i" E$ {) F7 M应用实例
K' @( c' T- `例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
$ I" K$ m' \1 I表1 累积温和一代三化螟蛾盛发期的关系数据, O" F+ H3 q( r; p; X1 o0 a. O
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2, Y$ C, j$ F/ V2 K% i" ^
Y盛发期 12 16 9 2 7 3 13 9 -1
7 X. B5 ]& [* y4 s- t# v- W1 [* R- R● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;4 u, Z/ v: a6 J# ^7 h+ q- x) E
5 X- `. E% S& `9 J' K! j7 I, J1 n9 c ● 输出结果及说明
4 n1 Z1 Q- b* f1 L Correlation Analysis相关分析
2 E6 Q8 ~2 W$ N& H* M) M/ [3 k7 d 2 'VAR' Variables: X Y
4 ]1 Y( d! V2 q7 f Simple Statistics
1 w% R" {8 x3 ]( Z8 e; \! ?( L简单统计
3 C+ x7 S* b3 R: Z/ Q7 A- V7 f0 M9 NVariable N Mean Std Dev Sum Minimum Maximum
4 B% _: K C9 N5 w8 X变量名 观察值个数 平均数 标准差 总和 最小数 最大数
2 L7 c$ |$ Z6 c; u' @X 9 37.07778 4.25199 333.70000 31.70000 44.20000
$ T# {" z7 G+ z3 u' _$ i+ p8 M6 `Y 9 7.77778 5.58520 70.00000 -1.00000 16.000001 h7 @; G \$ z
1 j3 O: o2 W' O1 y Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
/ i9 K( v1 ~# \ PEARSON相关系数
5 \7 N j1 Q6 [' p; P) q X Y9 y+ B. [9 B' J
X 1.00000 -0.83714
' f; \. P* x6 _$ x 0.0 0.0049
$ T5 i4 x: [( U. ], R- f- _. C0 _3 H6 L Y -0.83714 1.000006 G1 i; c: N- J7 g+ L6 M# U
0.0049 0.0 ! z$ Y9 r3 U, g
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。
# N0 v8 m3 S2 _$ L2 d8 M例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。/ Z: V: `* h: Y2 r! A9 I
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
* `7 \% A; O6 C; yx1 x2 Y x1 x2 Y x1 x2 Y/ j; u% y) {0 i/ }, A
26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
1 x, b* O9 F( L, Q- @; w31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
; @5 s, w. f% D/ e8 V0 X30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
! E( Q& l5 K% G) w h33.9 58.2 1022 33.3 64.5 1074
; U& H4 y6 v% N) T# z" v34.6 64.6 1097 30.4 64.1 1029 / q! w0 \, }7 P0 {9 Y0 h
● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;7 A- y9 K6 S9 _1 x2 x
9 H# y6 J3 J/ j6 u
6 W% U3 e$ c. q● 输出结果及说明! r' I) r5 o# Y+ q1 V
Correlation Analysis( b0 f/ K' w! s4 Y; L/ E
3 'VAR' Variables: X1 X2 Y 3 |. e T# E% ^- B9 V6 ?
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
7 z) G! M' y" E' @ X1 X2 Y* q1 _( Q+ G4 V4 D$ [$ C
X1 1.00000 -0.71738 0.62939
6 d% j0 P& ~4 ]* j 0.0 0.0058 0.0212
8 M J) F3 o Y% M X2 -0.71738 1.00000 0.013475 m/ u* V L+ U
0.0058 0.0 0.9652% N$ s/ m, _5 x. Y9 ~2 |
Y 0.62939 0.01347 1.00000
q3 _# l5 ~5 S: }+ q/ T 0.0212 0.9652 0.0
* l7 D+ V! i* `2 g* ?% p6 R, i由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。3 i# n. y3 u Y& r# y. g
: d* L: g. m9 A |