SAS相关性分析" r; C9 ^3 M* T5 ]8 d9 a
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。2 ^# X/ f! {$ T
回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。# z5 y9 O6 G$ z, l7 |5 P" G
+ A' D" c: k$ @% z# SCORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;3 X! q- [! k' e" P5 a) c# g9 U5 m, L( F( N
2 d3 F" @ N- ~, M+ x* W复制代码( C( y+ I8 m! m3 z! C0 w
CORR过程语句说明' {$ [" a( j9 n1 A/ R0 U
一、PROC CORR语句选择项
9 m9 M! z" P3 z. WDATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
, ^: A2 H) |; O) j4 JOUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。 ]3 X2 y2 b9 s" l0 _
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。6 I! Y2 v- X' n4 Y
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
+ [' t8 M1 G3 [; w& ]+ ?OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。8 |/ e( s6 X4 ^$ ?! Z: v8 w
PEARSON 计算通常的Pearson积矩相关,是缺省值。
' \/ D0 j- q+ `7 d3 wSPEARMAN 计算Spearman等级相关系数7 G2 U8 n( }/ L/ ?
KENDALL 计算Kendallτ-b系数。
* @/ B7 n% _& P& \HOEFFDING 计算Hoeffding D统计量。
. I! h4 _8 _. {0 f, B6 m! N# a4 INOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
$ t- w4 G. v, Z5 x7 N( _# n$ k# xVARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
" j) w$ ?' i7 o, w3 z% L. {NOSIMPLE 抑制简单统计。
6 ?2 I6 m3 @5 Y: j Q; W/ G9 x: cBEST=n 只输出每个变量与其他变量间最高的n个相关系数。' E1 X- W( R9 k" [0 V3 Z. U" y' h; R
NOPRINT 抑制任何报表的输出。
" R/ [& J3 z5 Y* [3 `& UNOCORR 在输出数据集中不包括相关系数。% |1 I" v- F7 T) L+ U+ b- i
NOPROB 不输出相关系数的显著性测验。& |5 n4 q# ]+ @+ t& q4 I& n/ V
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
. v; R7 H5 s) ?% F9 Y* ^二、VAR语句1 E$ I. u/ B! W; _8 }% A
VAR 变量表
: C0 p. w4 X% D( |& K指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
5 c; W0 I+ h9 h3 e0 R三、WITH语句
1 _5 c# \- L5 s/ T% K: OWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。) A; s, E' P7 s2 g; h
四、PARTIAL语句
* k) t4 S- f$ @ I! Y+ L+ XPARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。- w- m( @7 e. j. E, j3 o
J# B" v; A. g应用实例
. w" Y# U; X% z$ R! I例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。$ _4 P6 b( F* z2 J# `* s
表1 累积温和一代三化螟蛾盛发期的关系数据
9 U( ~( X, T" d% B9 e; ?( F( {; cX累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
. ]/ k. c% \# L3 t6 X/ q" bY盛发期 12 16 9 2 7 3 13 9 -1* T$ R3 ^: d8 n, M
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
% ^1 l# X, T6 U- S: t- W ) `6 u* N; O- h; c
● 输出结果及说明& e1 F) g& J: A; \
Correlation Analysis相关分析) S# W8 `; @% }. H5 T! o
2 'VAR' Variables: X Y
, z9 A+ U. f3 m8 i7 P Simple Statistics
) X" f+ h7 h9 y- Z" G" `简单统计
" b* M8 y+ t3 M# [& \& U: MVariable N Mean Std Dev Sum Minimum Maximum
& e2 d9 g- Z# ~8 c8 N0 C变量名 观察值个数 平均数 标准差 总和 最小数 最大数
' y. W5 r4 t) ~* P# B: v' I+ FX 9 37.07778 4.25199 333.70000 31.70000 44.20000& t, E$ |% }1 V4 D9 G; ]! o1 o: R
Y 9 7.77778 5.58520 70.00000 -1.00000 16.00000
+ D* [! T7 `* C% e5 O1 R+ V7 y! ^; b8 z/ f
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
4 c8 @" c u: n- T6 { PEARSON相关系数
0 f* [0 D& \6 U0 D X Y
& I2 {0 x. k ? G. x; I7 c7 }3 i0 h X 1.00000 -0.83714
% _2 u; i. W) x/ U; |4 ?! T 0.0 0.00492 u) Z. o: m5 M0 l% N2 a( @0 H7 }
Y -0.83714 1.00000
. v( @" A& t0 Q d0 f 0.0049 0.0
- H( z' S, g7 i$ e9 f* i可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。/ l, V, E6 S' F: t/ \4 g
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。
+ b9 F) |7 M7 b4 i) C. x+ g表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)( j; e2 Q8 a% [* W8 ?: K- N1 {# T
x1 x2 Y x1 x2 Y x1 x2 Y
0 h; f2 |7 J9 U26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004( \5 h& v% Z8 W/ W: @8 B4 h
31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
) P W5 y3 @2 K- |& P/ r6 u/ M30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
8 ]' w; s2 v7 T6 x, i+ ~33.9 58.2 1022 33.3 64.5 1074
# q6 Q$ E' h" z J34.6 64.6 1097 30.4 64.1 1029
1 v* R# P7 s, Z2 q( w; N; t● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;% F# v$ T3 z5 z/ b
% T; _" R) r1 ^ . e, J" | N) v. {* l* D- r
● 输出结果及说明5 K: @: e% o" ?+ s
Correlation Analysis u/ `, z! l6 W- h! W- F6 s
3 'VAR' Variables: X1 X2 Y
# p2 O4 e7 c& P4 L8 a) ^9 |# t7 B Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 - f, R" H* o8 e2 y/ s" X% c" O& j
X1 X2 Y0 @: c) r7 R$ N
X1 1.00000 -0.71738 0.62939
* I6 n+ w/ Q" P O9 Y5 l7 k: a 0.0 0.0058 0.0212
, E) ?. K" d" f; ^; J X2 -0.71738 1.00000 0.01347
% n- @( B5 H S+ i 0.0058 0.0 0.9652
& L) x6 H' n7 j" V Y 0.62939 0.01347 1.00000: y$ v9 ] v6 Z- P: E2 j
0.0212 0.9652 0.0
, C" D8 q, [; z1 F& W由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。( d' E4 ], L6 X! p# }0 i$ G2 ]
: k7 I" L- n; }; w$ [6 H |