SAS相关性分析
' W# I9 ^2 v& h/ M 在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
5 N/ m1 {% T0 ?7 N% q' N; q' @ 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。1 ]2 u9 p7 o( o8 c5 q& p9 R
% J8 s- P9 n5 T6 S, a+ ZCORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;: \0 \+ b% @/ D+ R% B m9 g+ T
6 s A1 f2 H- ]' N复制代码$ T' p: N8 g& }
CORR过程语句说明, |- A# [4 K( i
一、PROC CORR语句选择项' Z; n4 ~/ [9 L# |6 A: t# \# Y3 F! ~
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。 N- u/ c, Z# ^. R% x0 Y& L" N
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。( h0 V5 g. F& R8 M- r7 [& S+ x1 k4 }
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。7 i8 {+ H0 v; Z, n! [- [
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
# X5 R" O. v5 rOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
4 ^3 r% `8 \5 H3 U; V# mPEARSON 计算通常的Pearson积矩相关,是缺省值。
o8 i9 h5 \4 \/ c, n# ASPEARMAN 计算Spearman等级相关系数
+ f# }# g6 A/ s/ Z2 ^, X6 L. qKENDALL 计算Kendallτ-b系数。
3 n) F2 ~" P4 ~# }0 |HOEFFDING 计算Hoeffding D统计量。" |# @" c: y0 A5 N) L4 }: W! @
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。% C8 m& R& i% u8 v
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。0 p T4 K/ U* Q' j/ ~+ ^
NOSIMPLE 抑制简单统计。1 i V4 z% a$ C# r- ?
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。* _7 `6 A4 w0 k1 e$ s
NOPRINT 抑制任何报表的输出。
' h" K9 f0 Y( p7 |NOCORR 在输出数据集中不包括相关系数。& D! S. Q T$ u" z3 W
NOPROB 不输出相关系数的显著性测验。) ]$ P5 A) Q& `# N) k* h
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。" l' L. ?8 A4 y+ m7 ~$ J z1 {
二、VAR语句
- v3 b* T6 o# C( }0 p7 L0 `VAR 变量表
: o: \% t. Q' Y* h指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。; S; ~; ]2 V) \; M7 a( {& q7 U
三、WITH语句
" w# u7 P5 i! q, [8 x3 K- x' pWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。4 j5 U, c0 V: q1 i4 v
四、PARTIAL语句/ r* ^/ P* z+ f# V# P4 ]
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。; y! V# T! ^3 |; k2 e
/ l/ \4 D6 h+ C+ C应用实例- r/ V3 }# C( b2 q4 z+ V
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
" H) I: W# c4 g& `1 m0 k表1 累积温和一代三化螟蛾盛发期的关系数据, E9 H" _5 W& }( A
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
- o" ~* W7 `8 S- M/ N' Q$ kY盛发期 12 16 9 2 7 3 13 9 -1
5 Q7 Z+ d5 c+ {. ?5 R: ]6 O● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
- i1 f y$ P( i8 T9 P q
5 t/ F) I# ]3 T5 j' ? ● 输出结果及说明
- x% j) F$ H# ~ C Correlation Analysis相关分析9 W/ Q) z3 n5 d
2 'VAR' Variables: X Y
8 y! K4 U, ~; N3 w Simple Statistics
8 R' u8 e$ s; e6 ?# G+ {简单统计7 Y8 r/ d1 g# D' E* n
Variable N Mean Std Dev Sum Minimum Maximum
# l2 s9 X6 z* r& X+ o' j变量名 观察值个数 平均数 标准差 总和 最小数 最大数
5 z7 j5 X3 q) z7 nX 9 37.07778 4.25199 333.70000 31.70000 44.200005 ~/ v# U* ]1 y. W1 d/ K
Y 9 7.77778 5.58520 70.00000 -1.00000 16.00000
, C3 W3 D2 K% u
5 {$ k& O+ k) q; b Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9 7 w3 _" l2 P7 X! \8 l! R" r, i n
PEARSON相关系数* X9 {! A1 p+ _, I: [) O# o* A; [
X Y
& O+ @8 L# d: V' z9 p) C" M" W X 1.00000 -0.83714/ D7 k1 G D8 l& r2 t5 k; W+ s% k
0.0 0.0049
3 k; A1 f* {( ~ Y -0.83714 1.00000
) L$ |- @+ {/ ?9 ^* P! n3 g& `8 q 0.0049 0.0 % V* p0 B A/ Y0 D* ?. f8 k
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。
; k9 m! V& p( E: m( V! a7 {例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。; n4 U* p& a+ `
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
! a3 g# B+ G, Z$ m6 hx1 x2 Y x1 x2 Y x1 x2 Y6 M: G0 j4 a3 J( H8 H- @3 t$ J
26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
6 U3 ?' N% L5 U1 z! c+ s31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
' ^* r* r5 N4 c3 w30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
' z. @7 T5 `* }1 L" D7 I) S" R33.9 58.2 1022 33.3 64.5 1074
( q- ?; H2 ^ u& g, E8 D1 u e34.6 64.6 1097 30.4 64.1 1029
0 N O1 S* T+ D● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
' l4 E! S2 f' q o 9 H& j& Y8 [( F, t
" L# x; l+ T$ l) h ]% ` s
● 输出结果及说明0 t3 C/ a2 Z, ^5 P8 l
Correlation Analysis' p S/ c( F- m# p& l1 C. y, P3 \
3 'VAR' Variables: X1 X2 Y
- D) z9 {7 ~" c! C2 h# J5 X Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 ! O' \- O8 {# M8 J/ f
X1 X2 Y9 ^; i& d' G( p( V
X1 1.00000 -0.71738 0.62939
+ ?5 `' E! E( ~5 H9 X 0.0 0.0058 0.0212
, N5 O# b) e' E4 u! m X2 -0.71738 1.00000 0.01347
3 l0 _5 Q! |$ b7 }) S* k# s6 Y 0.0058 0.0 0.9652* W$ e/ w" s n( T% R" |7 d9 p$ G
Y 0.62939 0.01347 1.00000
' n) M5 R5 ]: |" ~ 0.0212 0.9652 0.0 . E7 @4 N- E+ G
由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。* i. q0 K+ Z( c
; A/ O2 r1 J4 H4 o: v; Q1 b
|