SAS相关性分析5 L7 h) O z) e- U9 w
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。* g1 P& D; [1 d8 v7 k; P$ @$ C" A
回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
# l4 I/ w7 f( z/ {/ h+ P2 z$ p0 x1 }* w
CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;
# z0 W4 m8 x- k( C: J7 \( p- s
. n5 k( ~2 J, {* X3 k$ f+ A9 B复制代码# ~, y( h) ~/ A) O
CORR过程语句说明6 B! o [# y+ R; F) s
一、PROC CORR语句选择项 Z! z9 f" Q, S& [7 x/ e
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。4 V T1 V0 J9 D
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
- V+ q, i- H, {3 XOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。
4 j) {/ l% t5 K" h$ [% L( i( ^* QOUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。$ i4 U3 c' Z& |" l
OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。7 z! u- h, Z& Y' D: \
PEARSON 计算通常的Pearson积矩相关,是缺省值。
( h w. L/ r. oSPEARMAN 计算Spearman等级相关系数
0 C' u1 ^8 m# e8 [KENDALL 计算Kendallτ-b系数。
: x: W: t9 j5 C. d8 hHOEFFDING 计算Hoeffding D统计量。
; }% b8 b/ b/ }9 b3 _8 [; x" }$ [NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
. I1 D- Q5 w4 j( \, L5 h7 GVARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
' R3 M$ Q9 z2 GNOSIMPLE 抑制简单统计。
: e* T6 ?( j6 y% rBEST=n 只输出每个变量与其他变量间最高的n个相关系数。
2 V5 |- w# |+ y: g0 B7 J4 k' hNOPRINT 抑制任何报表的输出。/ ^8 n/ H+ C% [7 W/ M1 l
NOCORR 在输出数据集中不包括相关系数。+ N6 P+ Q4 o/ Y6 @0 f
NOPROB 不输出相关系数的显著性测验。 k6 ]8 k; ~$ z3 M, O6 k8 y8 _
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
, y4 A' \7 @( t j, {5 F二、VAR语句/ W7 B9 X/ m* V* v+ q. f
VAR 变量表. }1 T# L) S/ k/ M; A9 {9 B- l. v
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。% l! x0 M$ |1 K w5 H
三、WITH语句
5 q; T2 @, j8 _4 CWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
$ m0 I2 N4 C5 I& V9 Q四、PARTIAL语句
0 e: ?7 } l# uPARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
7 \0 h f) u+ K' ^# T6 `4 q( R$ V" Y. d+ x) U$ t
应用实例2 _- x& N L% K1 ^; Z* z* p
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
) r- G5 i7 L7 ?/ N4 t) ?/ \表1 累积温和一代三化螟蛾盛发期的关系数据
: {( W/ P6 X5 p% |X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
8 y! j+ c& m% c6 ~Y盛发期 12 16 9 2 7 3 13 9 -1
% N' }: R- S, q! w. J9 w! j● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
7 [( g$ O U) h& h- u
2 X3 K3 i# d. V0 m8 g. g8 } ● 输出结果及说明3 b% g$ E5 B' r
Correlation Analysis相关分析6 i3 X! J' z/ ~5 i! s/ ]8 E' ~5 s
2 'VAR' Variables: X Y # E u6 [) j* z6 j. g
Simple Statistics
& J1 T2 Q3 m7 G& b简单统计1 Z8 _1 P0 R: J$ @3 o* W" o0 z# i/ V
Variable N Mean Std Dev Sum Minimum Maximum
; B S) L% t% V变量名 观察值个数 平均数 标准差 总和 最小数 最大数
7 P5 ?, V0 [' @ V' e$ O' ]X 9 37.07778 4.25199 333.70000 31.70000 44.20000
! M7 s+ X- t& z( k! aY 9 7.77778 5.58520 70.00000 -1.00000 16.00000- ]; }8 l g5 Q9 u8 [1 J
4 b! @. J/ e3 O) X1 @: x, [
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9 0 |- @$ X! L/ R
PEARSON相关系数
1 I. B. m& s# t6 l Y# T X Y' z6 {' X, m Q. Z. Z' ^ t: w
X 1.00000 -0.83714
& K' m7 l ^% T& E 0.0 0.00498 L4 \: s3 G: @2 O( l4 T
Y -0.83714 1.00000
% ~8 B% T0 e% @) x5 N& b 0.0049 0.0 w. c! X1 n: O& z" K3 e
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。
* E* m. t- n4 r# P$ P例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。
8 x: x' e/ D( k: N: A表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)- G" U) K4 M5 n/ E
x1 x2 Y x1 x2 Y x1 x2 Y
o- I# u# @5 f6 s$ o$ j26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
( b" R6 v+ \% B& v# q! K31.3 59.0 959 30.4 62.1 992 33.1 56.0 995* v/ J+ I4 R w# P* B% B
30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
2 [1 [. U$ ^, j6 G& m33.9 58.2 1022 33.3 64.5 1074 4 `% I1 C# f7 q0 Y" k7 Y- `. G
34.6 64.6 1097 30.4 64.1 1029
& z" H, B9 ]8 P● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
" _* W/ D/ U# C! ?% o
3 J2 G7 _4 k+ ~% G. x& [ & f& s/ w( x7 ~; p0 I
● 输出结果及说明3 W* s- {) h/ m+ }
Correlation Analysis
4 L8 k0 m; \* @1 S% I0 }" j 3 'VAR' Variables: X1 X2 Y , ^9 ~$ l& W# X1 N# A+ R6 C
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
7 p& ^0 T$ h' D X1 X2 Y9 \7 n8 J) U$ M* l# r! d! W( A
X1 1.00000 -0.71738 0.62939
' @8 s- j7 O$ ?) L2 z1 K' k 0.0 0.0058 0.02126 ^1 [2 A7 C; }! o7 ~
X2 -0.71738 1.00000 0.01347
) H7 }- ~. c5 u4 V9 [ 0.0058 0.0 0.9652
* J& C7 m0 S' Q4 E+ ~ Y 0.62939 0.01347 1.00000
( i3 J8 N5 _0 g U 0.0212 0.9652 0.0
3 k; z0 Z: K) |( ^. d由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。
+ V5 n' x+ i1 H D& |: Z9 N" M5 M- g% Y. b* o
|