SAS相关性分析* G, ?) d% X3 E: h7 E9 P
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
! h$ m/ G: l% ^+ j0 {, l# a& D 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
3 f- e, _3 X* k: ^6 ^8 v* |5 t) d7 }5 L" N5 r- w
CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;6 G1 T% n# S9 i+ j! |
# N! y/ C7 ^, o复制代码" N# l. U8 _7 p% _
CORR过程语句说明
; m: f$ l9 `9 U' H! J) T一、PROC CORR语句选择项1 R" A; O% _. A8 l
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
" b" W% o+ j: k- q$ tOUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
" w, }2 P0 s+ { t H, M) t4 K1 yOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。
( A3 S0 W" v8 _8 TOUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
8 _# E1 |* ^# K3 Z2 _: b7 ~* q) k. tOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
* s4 V( }# R1 G0 xPEARSON 计算通常的Pearson积矩相关,是缺省值。
" i% W+ ^0 _- xSPEARMAN 计算Spearman等级相关系数$ k3 H0 `) R Z3 W8 ~; e7 P
KENDALL 计算Kendallτ-b系数。
) e. n5 z- C" PHOEFFDING 计算Hoeffding D统计量。5 [4 e- I1 V- X& A. b; V
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。# v6 e* {) O/ Q& z; m; `0 ~
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
" C' h: }* @9 U7 q( kNOSIMPLE 抑制简单统计。
% M$ k% \: Y: D$ ~BEST=n 只输出每个变量与其他变量间最高的n个相关系数。
& p& z" c- z' d u' DNOPRINT 抑制任何报表的输出。
: [/ @3 x9 Y5 {% e* k7 XNOCORR 在输出数据集中不包括相关系数。 d& u. s0 t! v' K4 S
NOPROB 不输出相关系数的显著性测验。
: u" g2 S8 ?6 T" `RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
/ s8 ^# j/ ^8 D& G8 a. l二、VAR语句7 q: D1 L7 n7 Z! F7 ~
VAR 变量表' N- |" l& I# F, }; {2 c" E
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。+ E: K0 G8 L0 p( N0 R( x
三、WITH语句
7 P' a+ N: Z/ I, W0 PWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
" g; l8 f* H# r% @- h `' n; B四、PARTIAL语句! |/ |; L; h" T
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
9 b9 B) e# _+ D) E+ ^; J5 Y! |, x7 a4 s* v; E- r+ A' `
应用实例4 m d5 b6 i9 X. J" V; B, F
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
9 C8 k- P7 W$ n8 w8 |4 E表1 累积温和一代三化螟蛾盛发期的关系数据
4 {' ~# B- W0 W- IX累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2* V) C2 D$ W) {5 ~# |4 W
Y盛发期 12 16 9 2 7 3 13 9 -1
1 |' O; o0 {" G7 h' |& C. N● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;" r( R2 g7 H+ w) |
( T7 C% R8 W) }. [4 @
● 输出结果及说明
' M- Y5 i3 K6 m1 ]0 ? Correlation Analysis相关分析0 L; w1 j& ?9 S
2 'VAR' Variables: X Y " a' h0 u& ]% z; j" Q
Simple Statistics8 r2 {( `3 _0 j! z% J
简单统计5 K8 q2 N; _6 |; b; f- a
Variable N Mean Std Dev Sum Minimum Maximum4 f9 e+ ?; v5 j! P( t! @
变量名 观察值个数 平均数 标准差 总和 最小数 最大数* N" u& [. p k8 t) `: n0 z! x
X 9 37.07778 4.25199 333.70000 31.70000 44.20000
6 ~0 ?7 b# P7 l, O6 nY 9 7.77778 5.58520 70.00000 -1.00000 16.00000
* O+ W3 h9 t! o5 ~$ W
" J- _+ A$ P2 q0 \; B1 i/ N Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
7 g9 q8 Q* c' W8 C PEARSON相关系数' ~7 {9 D0 w% Y4 y
X Y& u3 M6 ^, \# z4 G3 v
X 1.00000 -0.83714
8 ^' y! a* w8 d7 a6 O% V 0.0 0.0049
& H3 ?& Z/ D' K- y Y -0.83714 1.00000- C$ ?5 Q9 A+ |
0.0049 0.0
e5 r. Z0 n# a; \% ^/ X# a可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。3 _! C2 n8 L6 ?- n
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。7 D, x9 y z& Q: X& L
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y). N, A6 ^* N4 i( L0 P: T& a" y
x1 x2 Y x1 x2 Y x1 x2 Y, V8 m4 l3 q7 y
26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004/ m) f" l1 Q2 u. I# U3 R
31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
- s2 M6 U4 c. N; B30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045' q. U+ E; @( N8 G
33.9 58.2 1022 33.3 64.5 1074
/ A: x) ~4 M1 X& n" H a34.6 64.6 1097 30.4 64.1 1029
6 C/ q' s- l: q1 G* G Z● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;( ~1 ]0 W# i9 M2 [ k9 _4 s/ Z
4 M% F9 z( M9 v" W 8 }9 D* D, B8 g/ W4 o
● 输出结果及说明
: C" r& s% v2 x# I Correlation Analysis9 [% u( c z7 ~$ ~* @
3 'VAR' Variables: X1 X2 Y
" V8 w) s$ [* Y# q, t7 n" x Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 ' H7 q. G; e6 y! H( [5 t# X& y
X1 X2 Y
( B0 [% H+ h+ _4 z% r' v) | X1 1.00000 -0.71738 0.62939
" E2 W5 k+ g) x 0.0 0.0058 0.0212 F. N) j" X; |1 |0 E
X2 -0.71738 1.00000 0.01347
* T& O+ l6 M& {" u 0.0058 0.0 0.9652
# ~+ @$ Y; A# O+ R$ @/ b7 ] Y 0.62939 0.01347 1.000005 n- i/ y1 M4 J
0.0212 0.9652 0.0
* O o% V8 U$ A由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。
2 Y. x+ O0 K p9 e9 v' x+ u: Y& {3 w; \. d
|