SAS相关性分析
% l6 Q8 Q& \& f7 ?) @2 @ 在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
5 g# n4 h ?* S* V+ g 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。" N: O v! ^* b4 U
5 ~# e2 o3 ~$ i! gCORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;/ G [0 o# w4 r& O8 s
3 y- W3 m2 j+ m- F, x
复制代码+ e2 _! }+ d8 F& G- V
CORR过程语句说明6 D2 Q/ ^1 A( _' l; ~
一、PROC CORR语句选择项% B) M5 B; D) |: b
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
6 G# E( [- _% E; o$ s4 }' x/ Y. GOUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
' ~9 q! B5 |7 Z0 V4 H- E# }, nOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。
: J& L& R b3 x- sOUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。, b. `; n! n4 ^7 Z
OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。5 ]3 D j4 Z3 l* P* Q
PEARSON 计算通常的Pearson积矩相关,是缺省值。/ C9 d$ O) }3 {
SPEARMAN 计算Spearman等级相关系数
" ^* s) I. s5 p: d' x- rKENDALL 计算Kendallτ-b系数。 ?( q% \' _3 m* z( f6 `( k
HOEFFDING 计算Hoeffding D统计量。" I$ s: w$ Q- {1 B& A5 Z
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。& O3 N; q) t" N3 Q* C/ C" b6 W5 _
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
0 R* J8 c% H, o r7 wNOSIMPLE 抑制简单统计。8 O [/ G& R0 }5 |
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。! i, S8 s' `- _- H
NOPRINT 抑制任何报表的输出。
9 R9 X5 f/ b m/ K0 INOCORR 在输出数据集中不包括相关系数。0 o% n% I: j6 Q7 [
NOPROB 不输出相关系数的显著性测验。
: p& [# b7 H, j+ D1 p- gRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。0 O/ H& c" E; B% O9 B) x. E
二、VAR语句' @3 {7 d) F& ]% H
VAR 变量表8 }- E% l8 y' E/ q/ u2 o5 W, B/ j* O! Y
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。 J+ c& }" y% P) r
三、WITH语句
' U9 X; e4 D( ?; M! RWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。+ `" H6 Q8 i; n5 a
四、PARTIAL语句8 {! V9 Q% p$ h* `1 k! t" z+ M
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。- v6 v% b0 [! a9 G% i' V" I, r
, X. \* S+ r; e8 i$ T4 `
应用实例
4 B, j( S0 z- ?) |! L例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
$ s5 d& p: U+ m! U1 z3 d- |; G9 ?& v" h表1 累积温和一代三化螟蛾盛发期的关系数据5 ^/ O t* c1 b: A8 Q
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
7 g/ R, L+ C( A6 N$ l- T. f% i$ Q6 SY盛发期 12 16 9 2 7 3 13 9 -11 J6 G6 u: u; d0 {# W4 l
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;8 |% ^0 `2 z. |8 [
% i; y6 v8 N. R9 ^. s; Y' m1 j9 u
● 输出结果及说明5 f* a; S9 d2 t
Correlation Analysis相关分析
1 Q! y. y- A) H( P5 h 2 'VAR' Variables: X Y " [: @9 I a5 W3 c. U c- S8 s( `/ d+ k
Simple Statistics
, f! L' d- D8 r8 c2 `6 U" C简单统计1 A# D/ c9 Q. `1 s3 b3 m% y
Variable N Mean Std Dev Sum Minimum Maximum& ~$ {5 @' ?" A) l2 n( ~
变量名 观察值个数 平均数 标准差 总和 最小数 最大数
; m2 F6 w( a ?/ t; OX 9 37.07778 4.25199 333.70000 31.70000 44.20000
4 c( ~% h9 K+ n9 F0 mY 9 7.77778 5.58520 70.00000 -1.00000 16.00000
" z/ [" ]; u! i* l s: S* }0 g
# Z- O5 V1 z5 T( S! V |* a Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
. |% L" h' m/ G& X. s( \2 z9 r I PEARSON相关系数
3 ?# H$ ^2 d% ^! V. N; Y! O# z* p X Y
3 g0 o# H, ~7 J3 x6 d) u2 G8 k X 1.00000 -0.837146 N4 [2 K8 t) D& d" I/ q9 G8 u
0.0 0.0049
; N* C4 r* ^5 j7 w4 I( v Y -0.83714 1.00000% F- e6 D: @; Y4 D; }! ?* |
0.0049 0.0
6 ]- E, z6 I' _3 H1 T$ |可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。- N" s: Q. C; P0 g- k; m; E* f
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。 T5 T- P9 d- A; Y
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)7 N' z- X0 W9 W) k
x1 x2 Y x1 x2 Y x1 x2 Y
5 T4 @- j' w, C) N9 O, H! M' \26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 10040 d' `+ E: b9 l1 O
31.3 59.0 959 30.4 62.1 992 33.1 56.0 9950 h6 F6 W1 U. A5 I% M8 }5 {
30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
1 |/ r5 G5 j7 ^33.9 58.2 1022 33.3 64.5 1074 + J: Q8 i$ e% k- C( T
34.6 64.6 1097 30.4 64.1 1029
5 }% c% z: v2 I1 k2 A- J; s● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
$ W" `1 q2 _2 B2 N
0 {/ R0 ` H( I9 t$ h! [
3 [& ~/ @5 x% x/ p) c/ D# M● 输出结果及说明; x* L. @: s8 S- T
Correlation Analysis
" K. ^3 G; O a8 Y3 G G" h 3 'VAR' Variables: X1 X2 Y
" Y+ `! ~: w$ M" X. y9 Y0 h. F Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 ( v: c( D \7 S( }3 y
X1 X2 Y4 {. k0 @: g3 W; m# c
X1 1.00000 -0.71738 0.62939* f+ g- o1 q' U" z
0.0 0.0058 0.02129 a# U+ G6 R v- k6 D2 e7 Q5 O
X2 -0.71738 1.00000 0.01347
' Z% a9 \7 c7 B" n; v$ m* M 0.0058 0.0 0.9652
- e9 r Z. v% M% D$ `: d Y 0.62939 0.01347 1.00000
: r# U6 c( |: G5 X6 B1 K( P 0.0212 0.9652 0.0
$ {1 s" T- c0 u3 c+ L5 M: {由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。 S/ {3 H4 T# ?/ Y: H
" t# d2 v* z1 [9 o0 N |