SAS相关性分析6 r2 q- s% T! A; z8 L$ \
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
T& S! B4 M( M& I' _8 ?7 s 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
8 O2 p& L3 k& o$ r+ a2 |% ~- T
% Z. }2 r' ~: A! [CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;% v7 l1 R+ B& K7 t) S
, a6 W1 Y8 k: q$ v- f1 n1 D复制代码
2 E& J H7 n* K& I# a2 A6 b( ?CORR过程语句说明
) b4 s0 _- W& X q8 f; t一、PROC CORR语句选择项& v6 w T- ^$ w7 `& B% Z
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。% }9 f) x3 z; ]
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
4 d" v2 t9 R# [+ @( } S9 m* yOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。$ t/ h0 `8 m! a3 H% n( _4 ]
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。" v+ }9 r! T3 \# ^9 `$ w
OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
5 V6 p0 P+ q% K) C0 PPEARSON 计算通常的Pearson积矩相关,是缺省值。
2 _; @% F. s" \/ G1 lSPEARMAN 计算Spearman等级相关系数/ p, V" Q' @! J* b8 v ~) F- k
KENDALL 计算Kendallτ-b系数。' F2 ]. t! b% r1 b8 O
HOEFFDING 计算Hoeffding D统计量。- d# j$ |, d! v( R8 m
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
' f$ b& _& I1 P* `) HVARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
& a3 u' |) w5 X3 Y) d5 R+ uNOSIMPLE 抑制简单统计。& ?0 A8 V! r2 F/ X6 V
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。
' i5 D! a& M2 e+ iNOPRINT 抑制任何报表的输出。 p) p8 x6 a5 D; B8 v$ O/ ^* n
NOCORR 在输出数据集中不包括相关系数。
1 e: O1 O$ K9 wNOPROB 不输出相关系数的显著性测验。9 C: @ Z k: ^# R( j( y
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
- I% [) r! F! i4 i二、VAR语句 i% q3 B; Q; L+ N. I
VAR 变量表" P) H P( p" u. G% s# |. B% T
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
8 k, Y m: `% ^三、WITH语句$ x+ G K6 E& x/ ?9 b) Z! ~
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
5 o# d6 F4 W7 H, s+ w1 r四、PARTIAL语句0 \- ]2 ^& @5 g- t
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。! G6 n* p' J/ P; ~2 S
6 a& S1 A$ u5 }7 o3 s
应用实例( Q0 a* t/ C2 O" B
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。) o7 Q7 Z3 g% J% J# k ]
表1 累积温和一代三化螟蛾盛发期的关系数据$ A2 f' r: e( z9 i! ^
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
2 C6 {" e* m3 W% v A6 xY盛发期 12 16 9 2 7 3 13 9 -1' L( Z% |" j) \; y0 B3 V
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;2 N$ S/ d; B; T+ \5 @; E
9 X' I i3 ^) ~8 ~6 P+ Q ● 输出结果及说明
. |+ O/ L, P6 E* F' h% I! j" N P) s Correlation Analysis相关分析6 P2 ]1 i) i* C! p9 b
2 'VAR' Variables: X Y
# {+ F: }. D' t Simple Statistics
- @/ x3 g3 _# V& d2 F简单统计
1 {# p$ v2 m0 e. w1 E3 JVariable N Mean Std Dev Sum Minimum Maximum& \! e- k R/ S; _. {; ^
变量名 观察值个数 平均数 标准差 总和 最小数 最大数
3 T% e6 R& v) N* ZX 9 37.07778 4.25199 333.70000 31.70000 44.20000
) T6 b1 E( `4 T [: K8 b5 x2 JY 9 7.77778 5.58520 70.00000 -1.00000 16.00000
; x( K# Q- V* @, f; ]7 R9 T7 j2 l/ D8 y4 \) a
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9 # q0 z( ?& ?* |5 B R' t
PEARSON相关系数
- z( O1 ^: t, o0 s5 n9 \3 {/ ] X Y
& I) p0 {3 q% ]9 o+ m& L X 1.00000 -0.83714$ i( y1 i& Q- ~0 ^/ P5 b
0.0 0.0049
$ K9 U4 }& F7 O Y -0.83714 1.00000# ~# r' D, \0 G" G
0.0049 0.0
. p% c$ `) l- b8 D% M E. ?/ x* j可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。
! i) N7 O* A/ B% J; k例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。5 @1 @; a2 n9 _8 x6 `
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)9 ?: W( ]* p8 L8 h3 L- h S9 v
x1 x2 Y x1 x2 Y x1 x2 Y
: p) {& H& X, Q- a$ {( l' h$ O2 Y ?# m26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004! D) O. ?& H. Q6 Y/ [
31.3 59.0 959 30.4 62.1 992 33.1 56.0 995( u1 Z! t4 O1 U+ K1 g: j1 u& y( `& f
30.4 65.9 1051 27.0 71.4 945 34.0 59.8 10451 G" ]8 Y' W P# I s5 z v4 ?% p
33.9 58.2 1022 33.3 64.5 1074
- m2 x$ x5 t9 H c# \34.6 64.6 1097 30.4 64.1 1029
; G) G+ I8 E$ M; f4 @+ q● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
! X% c, L: t) V/ e) b
R4 L3 }6 [: B) J
* g* v+ z( s& Q2 h0 J0 O● 输出结果及说明
+ o3 G! H3 |# ~6 R. r+ {, r. r Correlation Analysis; A* [& C: E; U2 e
3 'VAR' Variables: X1 X2 Y
; v5 Z. K* ^; L3 R4 }5 R8 y Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 " |- {4 D1 v) G: _
X1 X2 Y7 T& \5 P8 b, g3 g) K% E- N
X1 1.00000 -0.71738 0.62939: f. m9 Q5 R3 @0 k1 }5 Q+ H5 D
0.0 0.0058 0.0212
* x- K# a( `- }7 G( z0 Z+ d X2 -0.71738 1.00000 0.01347
6 W+ j- h! Q. v1 w5 H8 V v5 a7 x" y 0.0058 0.0 0.9652
1 D$ L8 L( H+ N Y 0.62939 0.01347 1.00000
$ L! Q/ s# E- X, \$ n$ Y5 W _( P. X+ N 0.0212 0.9652 0.0
" K) \+ ~1 |$ f$ p, r% G A9 q由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。9 u! U( W. W6 U+ C- t
0 ?9 N+ Q8 T9 A |