SAS相关性分析
" X4 T! p3 g4 H 在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。( g7 b- E) N9 C4 T
回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。' ]4 }" H X* _& B
- x8 h: l6 X* D2 s2 Q9 m, v: ?4 ?+ w9 v
CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;2 r4 s% j. x: }- v7 u' C
% W0 o( t# y5 ^! c2 X% J9 j) J% B# M
复制代码
& W$ ~7 k9 Z) \4 J' SCORR过程语句说明
N) d: n# f3 B2 Z: h; T一、PROC CORR语句选择项) k' m$ L7 C) ^5 y$ e; F
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
) A3 n. P( I) c9 f6 u$ ]- ?OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
$ y7 s- Y5 u6 DOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。6 p, ?0 M$ u$ {" a0 V
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
/ z- U5 W/ _; R& x$ t- }" kOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。( p U9 q* Q+ | e( [/ U, O
PEARSON 计算通常的Pearson积矩相关,是缺省值。
9 P5 r, f. [; J/ ]- NSPEARMAN 计算Spearman等级相关系数2 b8 Q5 s0 W' B+ P3 `, G0 }- {
KENDALL 计算Kendallτ-b系数。. D' `$ k. h o! i7 G; k
HOEFFDING 计算Hoeffding D统计量。
: g. o* w' Y: U3 N) YNOMISS 将带有某一变量缺失值的观察值从所有计算中除去。. T5 c; N: `5 F( O1 j1 Z/ G
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
2 l h3 q- a8 h- JNOSIMPLE 抑制简单统计。
6 t7 q+ U w/ v6 f* _6 UBEST=n 只输出每个变量与其他变量间最高的n个相关系数。- c3 |! ~' _: _8 ^, n u- [
NOPRINT 抑制任何报表的输出。+ u3 [, X0 d+ N9 [
NOCORR 在输出数据集中不包括相关系数。/ c' V" W* u) Q5 L M3 @/ L
NOPROB 不输出相关系数的显著性测验。% V2 r* G& ?) ~0 }$ ]# J( A. X
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。! W8 v& K7 X4 A' _
二、VAR语句
0 h! ~; o- V) K7 q# Q. `VAR 变量表
/ Q$ F! a. O7 j2 {9 m c Z指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。9 x. A' L, ~# U. T- m
三、WITH语句
5 J U. l+ G) s& L2 rWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。; c' ~. t# |& A" q9 G& K2 s
四、PARTIAL语句+ `5 i) y" b9 f* t8 n+ L
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
8 P0 {& W$ u8 L0 t* o# e
6 V2 }9 q! z' G w4 h( b! w应用实例
' P" |2 b8 }& E! `' P7 |: C例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
+ J$ ?& Q: `/ K" _6 i! z表1 累积温和一代三化螟蛾盛发期的关系数据. a8 i( L! X* T
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
! |5 A) p/ |# t; ~Y盛发期 12 16 9 2 7 3 13 9 -14 C8 P; V2 v' }9 _, j4 \
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;2 C" D0 l; i0 }! Q
% c1 u1 i: N/ r8 _: N ● 输出结果及说明
8 |- I1 Q* W1 m+ i Correlation Analysis相关分析9 q3 P) P+ e4 z; J" y2 s2 ]
2 'VAR' Variables: X Y $ _) q2 A e" \$ F8 A% @1 l
Simple Statistics
$ @! V4 U9 o% Q, x0 E4 D& D3 ~+ ?/ H简单统计
5 m9 y7 C, a$ `3 n: R, q2 m! C& Y6 FVariable N Mean Std Dev Sum Minimum Maximum' ]0 D8 Q& O v ]/ U# [' d
变量名 观察值个数 平均数 标准差 总和 最小数 最大数
4 ]4 L. m2 C/ A0 gX 9 37.07778 4.25199 333.70000 31.70000 44.20000
$ I3 z9 X( N. K2 O- tY 9 7.77778 5.58520 70.00000 -1.00000 16.00000
" ^( }+ R9 J/ b- v8 Z7 C) e( T# k- N% h" q7 J
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
9 q/ Q5 f; R6 t' d PEARSON相关系数
5 j% K5 s/ e, w8 b X Y
! F- j, K3 Y+ X# A6 J L X 1.00000 -0.837146 h+ P& w0 Q0 B( i0 j: T
0.0 0.0049
" o v. i" m. t5 g. Q Y -0.83714 1.00000) E4 P3 z; t, F. N! T/ q
0.0049 0.0
7 N) ~; f0 V! Q( Q* [可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。: a) j% B# P2 ~0 h8 U
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。
6 m2 G- |6 J. M" ~; J表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
" s* L) Z8 E. @4 N, a6 j2 I& ex1 x2 Y x1 x2 Y x1 x2 Y
+ G9 j, k" E3 w2 \; z( g) g+ i7 X26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
2 k! e! K% ]) s Q+ }7 A2 v31.3 59.0 959 30.4 62.1 992 33.1 56.0 9954 @2 l' ]: p+ J6 Z# D
30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
2 g1 ?/ | a/ G) i C( C& f9 V33.9 58.2 1022 33.3 64.5 1074
% Y+ O& }$ @# }1 f7 |0 T34.6 64.6 1097 30.4 64.1 1029
3 H. T6 `, J* o; G' T, i2 E+ r● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;! u6 b, l+ K; l9 u
. |: m& b0 ~0 Q- G% _1 g H1 L* H/ o' i; l! n; U ^) v, y4 a
● 输出结果及说明- U+ \3 W6 `; f) H6 ?
Correlation Analysis. p; O8 P0 W% f, D& m! L
3 'VAR' Variables: X1 X2 Y
& D1 p5 u: I1 l9 z& t Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
/ T$ g+ p1 a2 p X1 X2 Y6 f* i7 r' a; K& h; G0 ]! P
X1 1.00000 -0.71738 0.629396 o. P" E& p) ~& I
0.0 0.0058 0.0212% Y- y* b% v9 \0 r) F( K
X2 -0.71738 1.00000 0.01347$ n, J! L9 H! _3 s2 B* Y' v
0.0058 0.0 0.9652
* D% N" T4 u- h$ u4 r4 u h; Y Y 0.62939 0.01347 1.00000+ j" B8 T' H7 f7 ]9 o8 {, K' x4 {# f
0.0212 0.9652 0.0 7 N" R9 g# ^& v. [! }% J
由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。
0 |9 R7 G* W: r' l. ^5 Z. y' Z: F0 p' {6 s. a) W+ t
|