SAS相关性分析$ V% @! S0 o5 M- \2 U
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
+ L9 I- @0 N! q: j( @3 W/ J 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。( v" |) t& T [ F! ^8 O# A
+ V; v; @6 @" ]5 c7 i- pCORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;6 T I: e E+ P& j
# T8 ~$ _$ S/ t. v% Y
复制代码3 f# d: p* F' ~; s. ~1 J+ N
CORR过程语句说明
, @; f. s( s; i5 e" T4 y2 a一、PROC CORR语句选择项) k: S& h) p" H( v
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。7 k- O" n' E0 J, p" y5 A5 ~9 i
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。, w0 e8 }4 Y; V% \" Z, E2 |
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。8 Y/ }6 b* c+ i$ R) ?0 A) V4 t0 W! I
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。, v6 q, E; u- ^8 J/ H6 c4 ]
OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。) v* T/ N% ~- ?) c
PEARSON 计算通常的Pearson积矩相关,是缺省值。
8 h8 }/ |, Q7 S" T% ^SPEARMAN 计算Spearman等级相关系数
- O- ~4 s0 T9 Q% fKENDALL 计算Kendallτ-b系数。
{- W0 k- P* z! w* W' ~3 \HOEFFDING 计算Hoeffding D统计量。
" @9 f2 `/ y% QNOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
5 W4 H( X: Y) H H, kVARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。6 W+ P9 J0 b$ C' @. D
NOSIMPLE 抑制简单统计。
- K7 {+ C7 h6 @/ hBEST=n 只输出每个变量与其他变量间最高的n个相关系数。
3 J o- |8 q: d% E6 cNOPRINT 抑制任何报表的输出。
: d: P# A+ B8 d9 vNOCORR 在输出数据集中不包括相关系数。. V% t$ O/ w. U; R. m6 Q
NOPROB 不输出相关系数的显著性测验。
/ l0 U5 _8 i. ^5 F4 A/ @5 uRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
0 `2 s" g! c4 |二、VAR语句* m0 z) p( y5 v1 i5 ]( i
VAR 变量表/ [/ x# V* S% N. n) `9 X( l' T
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
) R9 u+ I1 W p0 I+ w5 N三、WITH语句9 L9 y1 ~6 ?: y p$ D
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。) T! j" f0 m7 t) O$ m+ C
四、PARTIAL语句
" g$ N1 W2 {5 R( `, HPARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。/ n* }, s# o+ Y0 ?7 C# v5 a5 P
! l* {- [* n! }/ L- `
应用实例( ^, U6 K1 L5 h# X! T
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
( }9 `5 d- s* H4 M9 T6 c4 J1 e) u' S( ~表1 累积温和一代三化螟蛾盛发期的关系数据
1 f, i6 j! J. r+ MX累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2/ M8 c7 g) T$ _* B
Y盛发期 12 16 9 2 7 3 13 9 -1. @; Y1 t3 A _- t9 ~, ]
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;& u- t$ N/ m8 A! _0 r
+ W% X! ~' b. v6 u. U# Q1 s# @ ● 输出结果及说明
w$ i, \8 e! v2 L& P$ ^ Correlation Analysis相关分析
' J, ]2 [0 I' F/ u8 ? 2 'VAR' Variables: X Y
2 f+ c1 g; \ f5 B* V$ O Simple Statistics
2 c f( _: {1 [) k5 c0 ]+ z- w( L简单统计
; }4 H0 {7 e! t: D' sVariable N Mean Std Dev Sum Minimum Maximum
- N) e5 _% l% A3 q" p变量名 观察值个数 平均数 标准差 总和 最小数 最大数4 w5 b1 b7 _2 ]# h+ M
X 9 37.07778 4.25199 333.70000 31.70000 44.200001 G5 G( M% ^/ k& Y2 A
Y 9 7.77778 5.58520 70.00000 -1.00000 16.00000
, y% J; `8 j# P0 y" ~1 U) M; {/ _% p6 P6 ]* k- P* p* n$ T
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
8 i0 {. }, h9 ?9 s2 _& ] PEARSON相关系数' \; _% V; t# i( J" h/ R/ {
X Y
% R! p5 ?/ ?" l, f& h X 1.00000 -0.83714
9 d5 S6 s4 w& p; R 0.0 0.0049$ n8 j. o9 T: \9 Y9 w1 b ]2 \
Y -0.83714 1.000004 M6 L, i& s+ P* |" y2 b/ y* O
0.0049 0.0
7 l6 P. D( e0 ]( N* W$ {# I可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。# i, J; O( W4 \2 n6 b
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。
7 K- S0 T5 r8 |: Q5 f* K表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
$ y% e$ y% n- @: Mx1 x2 Y x1 x2 Y x1 x2 Y
3 o4 d; `. A( W' c- A26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004) t! k, Q5 [. A' M+ m3 w7 @5 k9 L' k$ p& |
31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
0 i/ B8 G" X' B6 \: A30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045" X) j! b; O4 Z
33.9 58.2 1022 33.3 64.5 1074 & B% P( I' S. H9 L$ `+ v8 _
34.6 64.6 1097 30.4 64.1 1029
" b/ S: _. j. P, p# a, D. P$ D● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;* R) A5 T6 ~0 T/ X' N* J4 }
) e! L) X F$ m5 x9 t
4 H$ V1 W. A, w1 o) @ e$ i
● 输出结果及说明9 J' c1 N9 S" i& E; [6 k
Correlation Analysis/ S! e J9 h: s% ~/ l
3 'VAR' Variables: X1 X2 Y
, V* N$ |2 G; d3 s$ e% V* t4 k Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 2 y8 S0 L, f9 \$ h' A; `
X1 X2 Y
5 K& I5 J; m) g* i5 B+ x0 a; C X1 1.00000 -0.71738 0.62939
! w! Y2 M* Y# M7 O) n* [ 0.0 0.0058 0.0212
* Q! a. P' m9 j8 @& H; T X2 -0.71738 1.00000 0.01347# C5 e3 D" F* f5 v% h
0.0058 0.0 0.9652# g# b) w5 a/ f8 Q$ L
Y 0.62939 0.01347 1.00000
u* r1 e6 N: u g O4 X- Q% X 0.0212 0.9652 0.0 0 D+ c8 J5 z* d7 E$ ^0 c
由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。! C! g$ }3 a$ }5 W
/ ]) Q {" q3 y! K4 D5 H% ~3 K/ k
|