SAS相关性分析
1 n9 P2 _2 @. a2 ]7 s$ a) B3 q 在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
. U: } d$ d- r* Y1 g) X) ] 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。2 u" O2 i4 x$ Y, F1 d L% t
7 P* S6 g. O8 WCORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;1 a, k% ?) A2 ~6 h. F! M) z* R [
0 T+ r8 P& O& D; D- v2 D复制代码
9 m3 |' h* p6 {* |( c) M- TCORR过程语句说明2 m1 w A7 ?# ?
一、PROC CORR语句选择项
& n6 W9 d* k0 TDATA=数据集 指明需处理的数据集名,缺省时为当前数据集。1 r. H) I$ A5 ]3 \$ T7 P5 h$ l# P [
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。 H5 M6 @- ~$ M1 b7 B
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。2 k! L. C, T* E
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。8 a2 B# @. K: G* _ p
OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
1 X ~" x& E) b9 q' UPEARSON 计算通常的Pearson积矩相关,是缺省值。% [6 ]5 S* w! g3 V0 V3 W
SPEARMAN 计算Spearman等级相关系数
0 i& h; n5 u" ]+ X8 [- \KENDALL 计算Kendallτ-b系数。' a& h3 m+ i: X$ o
HOEFFDING 计算Hoeffding D统计量。6 }" {7 C7 L# m3 k# b. o$ C
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
% D' X& X, w: P5 K. d- HVARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
8 G$ a+ \! V. B( INOSIMPLE 抑制简单统计。
8 ~4 u- Q9 M0 q" n, @% e: U5 DBEST=n 只输出每个变量与其他变量间最高的n个相关系数。: r6 J8 |" |. P, ^( `
NOPRINT 抑制任何报表的输出。+ A6 S w9 p% i# y
NOCORR 在输出数据集中不包括相关系数。( o! _5 H* l) @* e! N' f7 }6 s
NOPROB 不输出相关系数的显著性测验。
, v5 g& s( _6 p/ B2 G8 @RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
) K0 N% F4 b! o8 ^9 Y- o+ _二、VAR语句
; L- S7 g1 J# f, X& X. h4 kVAR 变量表' O$ _& G: b; p% _# C* Z v0 m
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
: I g/ I: i$ V+ E. r三、WITH语句0 A' ~- P1 V' ^0 f2 E z
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。( E$ ]4 B6 n8 k G/ x9 e
四、PARTIAL语句& N" ^$ P/ ~" B: J7 X
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。) W* p! E0 ?3 C$ G8 m
+ D3 e2 Q2 H) F B$ s5 Q9 V9 H
应用实例
1 u# s( n: }( \7 I/ E例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。( z2 v! a; N, f; P3 ]0 V! Z
表1 累积温和一代三化螟蛾盛发期的关系数据8 x- I+ Q' X! ^1 |- H5 G" t! o
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
2 K* ^, S5 ~& Y2 g' h2 U9 jY盛发期 12 16 9 2 7 3 13 9 -1
6 X! E3 J {( M, J( Z: {● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
- ?6 \3 D9 c" Z7 Q, G0 |$ I% P. y( ]
8 _& F; r! J) j+ [! h ● 输出结果及说明
1 E, t+ o' ]! J6 C- p% d3 \ Correlation Analysis相关分析; l: @4 D- B5 E+ c# y" W! y
2 'VAR' Variables: X Y / n( @7 W' n; A$ b1 w; C6 @5 B `
Simple Statistics
2 z1 E) E0 \" U& \1 X简单统计. R1 h$ N5 _/ r1 V/ q
Variable N Mean Std Dev Sum Minimum Maximum+ c. q/ J( u, R O* f6 B
变量名 观察值个数 平均数 标准差 总和 最小数 最大数, g) f$ A4 y; _& c/ X3 [$ ?4 v
X 9 37.07778 4.25199 333.70000 31.70000 44.20000; {1 z- e' e2 P- C9 K4 k9 J$ D
Y 9 7.77778 5.58520 70.00000 -1.00000 16.000008 Y* I, \+ w- |1 i4 f X1 R, _* K
2 _" b7 E! j: _# {: y
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
) J3 d8 t/ w: \ PEARSON相关系数
# t, ^5 I% Z) H) [ X Y
! }5 w2 Q0 G* |; E X 1.00000 -0.83714& O. p9 N7 n7 x) P8 u7 V$ _9 Y
0.0 0.00494 J9 N9 J0 P& C8 a7 d
Y -0.83714 1.00000
' p8 D0 X' l# u$ ^ 0.0049 0.0 / [8 o' {) a+ Z( v6 m1 i) t
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。+ D# t, g5 n' u1 I5 f
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。2 Z0 C, _/ C n3 t' @! }4 A- Q
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
% r9 b( ?" \ Q/ [. X/ Sx1 x2 Y x1 x2 Y x1 x2 Y
4 D3 r8 J6 {& Z! T4 w$ Q& D% j0 b26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004+ ^! Q+ g/ _+ y. u% g! Z8 P
31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
( Z' p s: q6 ~6 M. q6 A30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045- y {! y7 f$ P- }9 H
33.9 58.2 1022 33.3 64.5 1074 2 X( A- T$ r: w G# v
34.6 64.6 1097 30.4 64.1 1029 # H+ B$ z: R0 a/ Y4 H4 k+ v% c
● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
( Y y8 ~0 }8 P. a: A5 {$ h! U# H
" \: B$ ]$ G4 R * m6 G2 S1 N# e& K7 i5 F9 |
● 输出结果及说明& b9 D) w) F5 f( W
Correlation Analysis
7 g! l5 S. d$ x4 \, `; @- S; e 3 'VAR' Variables: X1 X2 Y $ z: D, X7 y8 k) X, \$ X
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
4 T5 \+ R' Y6 q N: {! k5 n X1 X2 Y
, n2 X" S# l8 F! u/ r# H0 H+ [ X1 1.00000 -0.71738 0.62939
& q7 E2 M; P* j 0.0 0.0058 0.0212
6 B X; h+ L' @' I# K X2 -0.71738 1.00000 0.013475 j# \: B% j6 H4 f
0.0058 0.0 0.9652
2 h) I5 H; }% i# g: t$ ~* d0 K" N Y 0.62939 0.01347 1.00000. o' J. u) v4 N) Y" N" H* e
0.0212 0.9652 0.0
2 \- F, ?. R$ w5 y, ^" m0 _+ h由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。2 ^& e. \' M1 G2 n/ ~" v) X4 w
' M: O1 C, }% y
|