SAS相关性分析
$ u& |; D% S. N, f! @' e 在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。1 t0 g7 h# E! t- T/ z
回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。3 H3 m& u% P# u! k8 n$ U
& G* p) ?) |& Q; E" F4 y- T' n
CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;6 C2 `6 i2 y7 D$ q: v6 E3 g
1 H0 v1 H! m5 T- v5 R$ h5 M- X' p
复制代码
3 H6 X Q: k1 Y. J8 ?CORR过程语句说明
; L( B2 ]8 D) A& O" w一、PROC CORR语句选择项
( F/ i6 n0 n6 a) j. F# }DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
/ a m& N9 o& Q Q. \5 A KOUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
; R6 H" L: y9 r8 b# D4 n- U# qOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。$ Q1 Q2 p: c1 D5 S( a |
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
, w( _% v" t# C+ _( JOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。5 b5 C6 N1 E; X
PEARSON 计算通常的Pearson积矩相关,是缺省值。3 _7 _) }* f3 U% D8 f5 y! v
SPEARMAN 计算Spearman等级相关系数+ V: `# H3 P8 G2 L/ K2 T: _
KENDALL 计算Kendallτ-b系数。
6 P ?: s# x/ \( }+ \; H/ l; `9 hHOEFFDING 计算Hoeffding D统计量。5 f+ \9 h( I! i5 k. ]2 c' n- o
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。, O9 i9 w* u3 S$ s6 c6 f9 X" v
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
+ D7 \# R/ |8 X3 F/ l( NNOSIMPLE 抑制简单统计。. d, u5 m! s9 \; \1 J
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。3 F( ^/ I" E' B) r i
NOPRINT 抑制任何报表的输出。
/ k4 b1 d- p- l) @0 P% Y1 [+ sNOCORR 在输出数据集中不包括相关系数。
& b4 ?1 y5 c' e6 G$ cNOPROB 不输出相关系数的显著性测验。
5 R4 A( {# e2 _- yRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。/ O+ v$ b2 [, p$ u4 R) \1 P; ~
二、VAR语句7 w @' @: x) q. ^6 Q! h
VAR 变量表- S' n3 B$ g: @, |4 b/ F1 Y
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
) y$ s4 L4 _+ ]7 \6 v+ d三、WITH语句7 w) J; a/ ] h; R0 w# q& |# M
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
/ Q$ F9 I& }' ~' a" x5 R四、PARTIAL语句
8 I& L: O, ?" \8 qPARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
2 ?( p* F7 o( Y! [
- `) n0 H' T5 Z* n应用实例+ m( l) k$ @1 O& D! C+ i7 G' E
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
: c! D; U4 R& @/ q) i, c: [, Y表1 累积温和一代三化螟蛾盛发期的关系数据+ a5 V8 m2 R5 [5 T
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
/ {( m0 l" s, ]/ [1 cY盛发期 12 16 9 2 7 3 13 9 -1
4 T0 b" D o: B- E● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
2 {7 V$ {. \1 ^1 r9 J & b) G8 q. v& I( D' W8 `
● 输出结果及说明
1 D3 O' k/ K( V6 v- W( \- d4 _ Correlation Analysis相关分析' l2 r9 }" b: U' k' g7 }
2 'VAR' Variables: X Y
2 z, O$ Y) ?7 r% T9 }3 n Simple Statistics
; U; F* q4 j6 C% p/ \. G简单统计, Q. N( h- g' ~% Y
Variable N Mean Std Dev Sum Minimum Maximum' H: f9 [* H% V& a, x
变量名 观察值个数 平均数 标准差 总和 最小数 最大数
. Y2 n$ k( O0 \& M( l1 b3 jX 9 37.07778 4.25199 333.70000 31.70000 44.20000
" i6 W& U0 }6 s; mY 9 7.77778 5.58520 70.00000 -1.00000 16.00000, ^7 N& E ~/ Q! @2 E
* [7 ?& r4 {' v' S: b8 q Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
! Q( ^. y* O1 Z: K2 T, s PEARSON相关系数
% q* O+ R9 T7 Z3 M X Y
3 h0 J. y! ^/ C X 1.00000 -0.83714
0 y3 N g, ^: O! W0 r 0.0 0.0049
! v9 U- @4 P7 \ A) ?9 N Y -0.83714 1.00000! I& m/ D, t6 C) I) b2 b/ k
0.0049 0.0
3 h9 V( K& X$ E* k/ N# A可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。$ A. s9 v7 [/ O2 H) w6 h' l1 R
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。& g* ]8 S/ I- z" s# h. h( S# q1 o; J
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
1 }+ C |8 |# r; `; Q0 s( Kx1 x2 Y x1 x2 Y x1 x2 Y
& E+ T2 U8 {$ p3 v, D- P- N0 O& C, d26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
X9 m" r5 C! |% O" i31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
) C$ A* c8 I* @; ]8 g30.4 65.9 1051 27.0 71.4 945 34.0 59.8 10457 x' x) V' u; k, T3 ]# b/ v. Q
33.9 58.2 1022 33.3 64.5 1074 ; M: v1 s7 {% [; ^% ?! W
34.6 64.6 1097 30.4 64.1 1029 / i/ ~0 n- N0 f& X' [2 f; a. X
● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
$ o% ?2 k& U) r. N; `& z0 i2 p
% y; s. c6 O n# i. ]9 P. x6 B
; H) p+ h7 D4 Q( w( Z+ g● 输出结果及说明
: _0 ?7 v4 h4 y4 a# | Correlation Analysis3 v0 d% e9 ?9 |% L: G( g
3 'VAR' Variables: X1 X2 Y & h) `- d% |3 I# M& o3 p, m7 o
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 2 V) V1 ?! ~: {; ^: W3 K/ r7 R
X1 X2 Y
3 h: m, e+ E2 B- U8 ?3 m5 b c. W X1 1.00000 -0.71738 0.629398 j h% O$ Y1 W/ J8 L& |5 N6 f9 z
0.0 0.0058 0.0212
, q* \" V! p& g, \& L X2 -0.71738 1.00000 0.013476 B ?. Q2 K/ t- _7 P2 Q8 h+ J& P
0.0058 0.0 0.9652
! l L1 G# G1 [& Q. O3 p: n6 ~ Y 0.62939 0.01347 1.00000* h. e1 P4 \9 q
0.0212 0.9652 0.0
d3 j$ L+ ^" Q0 H& d' x) G: _由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。: r9 e$ w% d- h. {/ j2 [- u4 l# O8 D
$ ^1 h( I# g% q P* R* ~ |