SAS相关性分析0 n) C2 h3 L }8 [, Y' ~
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。# q$ \0 L! l" e+ D2 e
回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
. Z4 `' k7 c$ X2 K0 F, ]8 D
2 q# Z. F) v; |" c) k+ U0 O w. Y3 YCORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;, r9 M$ H: B' {* g+ B
! O" U' x/ ~- S) h9 Y
复制代码# @0 \2 H7 { @5 T) k
CORR过程语句说明: z% j6 {6 ?% h: ?- i$ `1 G1 K2 P
一、PROC CORR语句选择项
: Y8 u2 N4 [. l2 S* ?2 g& `2 w) GDATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
$ U1 w9 a! y! DOUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
4 \4 g; b5 d* ]& _3 hOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。/ I. l( _/ C& C' l8 C2 s
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
" k; X; I* \, x2 |! _* KOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。2 q; B; V2 \8 I" W) A* u2 \
PEARSON 计算通常的Pearson积矩相关,是缺省值。! u, G9 ~8 r% ?8 Q
SPEARMAN 计算Spearman等级相关系数4 _5 o9 {3 ]. _& |
KENDALL 计算Kendallτ-b系数。
" r I4 u' Z+ ^HOEFFDING 计算Hoeffding D统计量。1 A5 J) K s1 d6 U2 V% m4 v7 E# l
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。8 r2 N* |7 O' n2 n* W% n. I
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。8 ]# t+ w; A6 g5 L% l- ~
NOSIMPLE 抑制简单统计。
$ `: S( W& @) W# X% HBEST=n 只输出每个变量与其他变量间最高的n个相关系数。2 q$ _! b1 T& m8 j( \& |- w1 K- Q
NOPRINT 抑制任何报表的输出。: P$ P) P; T% a' S5 z
NOCORR 在输出数据集中不包括相关系数。
4 `7 ~5 T. U+ [$ J4 kNOPROB 不输出相关系数的显著性测验。
; Y' m: c5 M ~0 Y3 t2 KRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。- H9 l! [% a1 x6 X6 s
二、VAR语句
; D) H2 V5 f: l/ T2 t8 hVAR 变量表
% W8 N& s3 K2 X+ y# {4 F指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。3 {6 h- r; a: I: l _- q
三、WITH语句. y) M* k$ u) u0 b, R& [, G
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。0 H$ e! i" V" x6 w# S8 c
四、PARTIAL语句 b' ?( b. _, {) v
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
: S- Y# u$ ^. [$ U; n* d$ H4 ]3 E% c: G4 ?0 I4 Q0 `
应用实例$ e$ |+ K4 T* r$ \& k0 c
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。8 }5 g# I F$ ]" \1 s
表1 累积温和一代三化螟蛾盛发期的关系数据- x! w, b4 u% f
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
% Q# f0 v& f" V1 YY盛发期 12 16 9 2 7 3 13 9 -1
& _8 E. C [& g5 f, l3 Q/ q% k8 P# M● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
6 L$ I+ z* A8 A7 U6 e: h
5 v9 [/ @; y8 w( @ ● 输出结果及说明" x/ T8 @9 F9 ]: m
Correlation Analysis相关分析
& F1 `( r' r% A4 } 2 'VAR' Variables: X Y
. Y9 i6 B: a$ i b4 e Simple Statistics
! `+ E2 _0 }3 J3 l$ V% D简单统计
1 p5 A5 Y- W0 A$ `7 ~1 c# p& fVariable N Mean Std Dev Sum Minimum Maximum
9 W/ B3 _$ x, H! @变量名 观察值个数 平均数 标准差 总和 最小数 最大数. p8 T, {7 a) Q
X 9 37.07778 4.25199 333.70000 31.70000 44.20000
8 K, a: H- F8 J( x: \9 yY 9 7.77778 5.58520 70.00000 -1.00000 16.00000/ U1 G" \5 }3 t8 E( n
* H$ B* O; k3 j9 r/ K; X' G
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
7 A% n) g8 _ `( g2 R8 X" |6 A PEARSON相关系数( E1 O: k6 B7 U; p- g' Y8 T& }
X Y% t a1 r2 N! ~5 F4 L
X 1.00000 -0.83714
. w+ O m6 l1 f, @9 c+ G( J 0.0 0.00499 X% G# \5 K/ V( ^# d
Y -0.83714 1.00000
$ m5 [) H5 r8 F/ b5 b- @ 0.0049 0.0
7 p1 Z. u+ S( e9 u. e5 z/ y可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。
4 C/ J1 R H0 `3 `5 \1 }& L2 o" b例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。. N6 X0 z$ T7 R# I2 G% C9 c
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
7 I3 b% d9 B0 U# \# s; Vx1 x2 Y x1 x2 Y x1 x2 Y" F) q' S$ m5 U
26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 10049 }- T0 q+ f9 K( H- Q$ N4 z
31.3 59.0 959 30.4 62.1 992 33.1 56.0 9950 O' F S1 B8 p) K X- }
30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
+ ^ s" g6 r, j2 j33.9 58.2 1022 33.3 64.5 1074 8 s0 D% ~! W u
34.6 64.6 1097 30.4 64.1 1029
) H& D5 a7 p6 l' X( {3 i7 F● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;- V. |" J z" @6 M
: w7 S4 C8 s7 E, \- Y% D
% E. T+ R* ]5 c7 f1 M+ v2 U● 输出结果及说明
7 M5 e* c3 m) ^: {# [1 l& B& H" y- r Correlation Analysis
. v# C) X6 x" M. q# l; z8 o 3 'VAR' Variables: X1 X2 Y & k) l+ ^, \' M! }
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 1 k0 V" Y. D4 n( W; G# i' _
X1 X2 Y3 q/ ~4 q2 r) K! y/ B
X1 1.00000 -0.71738 0.62939) |# [7 ~% x3 i7 T9 v, J7 s
0.0 0.0058 0.02121 o& m! @ s& O" D/ d p8 d; E
X2 -0.71738 1.00000 0.01347; {% `* v4 c0 I7 A5 v" I+ o
0.0058 0.0 0.96525 b! V; V- R( J- |* X2 a
Y 0.62939 0.01347 1.00000
# ~+ E( J/ ~8 {0 d 0.0212 0.9652 0.0 2 |5 k, H$ `8 W
由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。
6 h u3 \8 f# P4 A6 a+ P
5 d* g/ j4 `/ X/ o8 t' t; f |