SAS相关性分析
! B' ^/ G2 j8 Y 在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
_3 E9 L0 @" C f0 ~ I4 I 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
4 d- Z- p9 x4 ?; Z" I
: U3 ^# g5 ^/ s& c6 q6 W9 CCORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;$ t" k2 h* ]; M* i$ r$ l& U1 i
% c9 k2 y+ a) A' l0 V. A7 q3 i复制代码, c" P! r; k# C2 h- _
CORR过程语句说明) Q. ~6 f( e- p) P1 s) Y1 t8 q
一、PROC CORR语句选择项
: K0 ?( l( s. ^* y0 D8 v+ w- \DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
: @, W. ^9 n R9 r- FOUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。7 j+ e, ~8 b6 t8 o% K
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。
4 k& s. H* p6 kOUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
U/ o4 c o$ Q: s+ GOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
8 q4 c9 |; x, }& NPEARSON 计算通常的Pearson积矩相关,是缺省值。7 l# I# I6 Y t
SPEARMAN 计算Spearman等级相关系数2 z3 D$ F3 m+ N5 R" d+ n: g
KENDALL 计算Kendallτ-b系数。
b- @% X/ Q% m4 W' O- ?# oHOEFFDING 计算Hoeffding D统计量。6 c+ s- f- ?! L% ~ A k' Y7 p2 b5 @" [
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。6 N9 F8 e& H; n6 ]
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。, R% D: _6 _% h; l2 e; j' l$ ^$ ^
NOSIMPLE 抑制简单统计。, a- w' g4 n3 u3 V
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。" @! e C1 C3 R, [2 {; e6 T" ~
NOPRINT 抑制任何报表的输出。
& v1 l6 z. } m3 I" qNOCORR 在输出数据集中不包括相关系数。! S( S; d4 ?3 t9 y
NOPROB 不输出相关系数的显著性测验。
+ i$ U" N+ p: J& Q$ f+ o7 k1 J% MRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
2 ^: x) `3 ~( Y& r# V+ h2 m- {$ ]二、VAR语句, T! [# q) s6 I$ M6 c( h6 ]
VAR 变量表( b5 T( |- S% ?' R* B
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
0 a( V5 X) m) X三、WITH语句4 d0 A+ o6 x+ c* d+ a
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
: x! N- a% N0 m* I四、PARTIAL语句+ @3 i5 I, v! k' }
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
( v$ t7 N, z* L( d% I4 E2 p# W* Y' I. L2 i; f9 q
应用实例3 Z( m0 V0 U- t* g6 D& C2 c
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。/ |( q6 }; l* \
表1 累积温和一代三化螟蛾盛发期的关系数据% q, Q! R0 D0 W2 s' e/ ~
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
+ S0 J0 N; P Y( N; s7 CY盛发期 12 16 9 2 7 3 13 9 -1
3 g8 p" }, a& k" l& T8 Q● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
Y6 h, A( ?- R* S ! K2 I* S2 T) W; Y
● 输出结果及说明1 ]( i, R1 A' {9 n% |
Correlation Analysis相关分析1 }; \+ i) ?9 n2 K' S) T
2 'VAR' Variables: X Y 0 u3 }, J% K" ^
Simple Statistics
+ S6 \: @4 y, G6 s简单统计; T& c* K7 |. q' |# a9 }/ Q/ w
Variable N Mean Std Dev Sum Minimum Maximum% V3 h. ~- y) G4 a/ A' ]- ], V
变量名 观察值个数 平均数 标准差 总和 最小数 最大数
! y' H8 o, J/ z( m& OX 9 37.07778 4.25199 333.70000 31.70000 44.20000
- X! C8 E/ Q8 ?( d- T6 W8 {Y 9 7.77778 5.58520 70.00000 -1.00000 16.00000
: u% u% f9 R; k2 Y; `/ E1 N; D3 Y% m2 [- ?* u" }
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
' z$ o5 `6 j8 d# I& L! [ PEARSON相关系数
( q: E( J2 t* T3 x X Y/ m& |# u* x! p& R6 W% A; Y
X 1.00000 -0.83714
v0 G% H7 M. E& _ 0.0 0.0049# b" k/ x& T1 Q& M7 `
Y -0.83714 1.00000
. j1 V3 a' y7 B7 G% X 0.0049 0.0
) A2 [9 _; D7 q3 O) e. M! p可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。! l% u* G1 o- H/ b
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。& M6 F2 m) P- w9 k: ~% D4 a
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
0 c. c6 s- f) Xx1 x2 Y x1 x2 Y x1 x2 Y
. \( C' i& t- O* M26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
- O, g! w' v6 u7 l% p y4 ]8 Z31.3 59.0 959 30.4 62.1 992 33.1 56.0 995! L* n& I) k$ P; m+ b+ }
30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045' n7 b/ F6 `9 E, I+ N; w
33.9 58.2 1022 33.3 64.5 1074
( H8 e# l( o/ G. J34.6 64.6 1097 30.4 64.1 1029 ! f. r. N6 k$ F' J. s
● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
3 s1 k5 R! ~* E2 M5 s* s ( ~+ u; S" y: ?% L
M, U+ c$ m( [0 S3 y● 输出结果及说明
\2 E( N& a' \* F! i Correlation Analysis
' K9 E- x0 K, y0 s$ H, `+ V, n4 F 3 'VAR' Variables: X1 X2 Y
( ]6 b0 ~3 f' J4 z' G6 @1 u Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 - ~( a: Y3 b8 p( e0 B3 `
X1 X2 Y
/ g/ D: ] Q; E% N {+ f" t X1 1.00000 -0.71738 0.62939" X( G. `6 \* J
0.0 0.0058 0.0212# u; l9 B- \3 F
X2 -0.71738 1.00000 0.01347. s8 U0 ?. g, S) ~/ b5 p( [
0.0058 0.0 0.96528 b8 c) \' t! T' c' X
Y 0.62939 0.01347 1.000002 @4 z3 G8 j9 Y$ w* F
0.0212 0.9652 0.0
% H9 a- C; \' ?8 b. }由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。1 `* r2 _7 F1 D. c( Y
1 p' P$ ~- Z( S+ U
|