SAS相关性分析5 C* p: U+ ]4 u' l( {, P
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
/ F2 j2 Q; ^$ H% [2 Y/ d 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。+ d# k* j/ E" [3 n+ _7 L7 e
# B; m+ s) L; L) ]& \CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;
2 ], y# p- \7 T) }( @ # n7 M$ o5 ^) x$ r- a
复制代码
M; @, T: n7 `CORR过程语句说明4 u4 v# H" ^& a/ T& b2 V9 T, v
一、PROC CORR语句选择项
8 f( {' c$ e$ g3 @5 a; }DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。0 Q1 S/ U8 s% {! `- |! w8 J* N
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。. O8 V2 J0 ?6 z. a9 r7 {. I5 i% {
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。& _* A A8 L. O5 ]7 P ]
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
; s8 X% r9 A% S. S1 I _! {/ MOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。4 O# e# ~! z" v" N% D
PEARSON 计算通常的Pearson积矩相关,是缺省值。& K7 y! W( J$ ]7 ?$ P) y
SPEARMAN 计算Spearman等级相关系数1 D# h# Q+ u; b! Q' g. l q
KENDALL 计算Kendallτ-b系数。 T& T1 p# z8 t7 H( ]
HOEFFDING 计算Hoeffding D统计量。" Z; i" U1 Q9 L$ ~7 O/ ?
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
6 v: f$ a. o6 P: v5 j, }# @VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
: C2 v/ T. w: I$ L e4 KNOSIMPLE 抑制简单统计。% l x& e! ?7 ^) W4 C7 J" Z
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。
4 g, y% A0 O0 u" gNOPRINT 抑制任何报表的输出。
# e4 l5 h( }4 o$ fNOCORR 在输出数据集中不包括相关系数。. O) F- u) Q5 d7 r3 O' y
NOPROB 不输出相关系数的显著性测验。% A3 }% {6 i3 B: B
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。( ^& R( u8 `. O" E* Z7 j
二、VAR语句. v) o6 a+ i2 Q
VAR 变量表
, n7 K' @, o0 X2 E' t/ E指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。$ b7 G$ R/ V1 N+ t% Q
三、WITH语句
& D! a( B- Z" t5 R9 Q( w" \/ MWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
# `: N$ d8 s! }四、PARTIAL语句+ @$ B7 z) E9 e. u
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
# @3 \. U; V/ J0 Q
0 M/ J$ {5 x: a( {! H- k应用实例
' m+ I }5 B- h/ Z1 p+ x+ j例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
7 b1 K0 i1 K% V+ \) F2 z$ ~. \表1 累积温和一代三化螟蛾盛发期的关系数据% a1 N6 u# \+ F. b
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
* P2 e" e( S4 @+ zY盛发期 12 16 9 2 7 3 13 9 -14 y" P7 k" z) n5 u. g+ P# ]
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
% K: t+ H! F# V
% D" {. s% }# M; f @ ● 输出结果及说明
! i1 X* q, x5 {, j Correlation Analysis相关分析
( D) d% V2 M% c& h 2 'VAR' Variables: X Y
" W) m- l, K; n& u) j+ J8 G( O Simple Statistics
, D0 S" P0 K# u+ A, W% I% J简单统计, q5 L- ?" e* n
Variable N Mean Std Dev Sum Minimum Maximum x: P1 U! |' U: \
变量名 观察值个数 平均数 标准差 总和 最小数 最大数 @' v5 P8 e0 g
X 9 37.07778 4.25199 333.70000 31.70000 44.20000
F/ @2 ?: {0 q7 M F; ^5 A j, hY 9 7.77778 5.58520 70.00000 -1.00000 16.00000
! x! `& M; w2 k' C, O! _% @& w3 H1 {7 o
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
2 V8 M- V7 `- R8 d! a6 a9 K$ u PEARSON相关系数
: U! m. s- w) H4 M/ Z X Y* k+ Z: y0 d7 u5 |
X 1.00000 -0.83714# \2 H- L6 Y: C2 ]4 I. J9 A) k
0.0 0.0049' D/ k( _$ M9 ]# W: \
Y -0.83714 1.000003 p4 N' X Q9 d1 B
0.0049 0.0
. q0 ^3 f5 Q5 \ Y1 }2 i ~ j可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。& ]2 ^ ^; @1 y9 D' Q% z8 J4 R' }8 }
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。, H2 M2 w+ a- v ?
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
/ U# l' i S& A+ W- hx1 x2 Y x1 x2 Y x1 x2 Y: D4 |: B9 K9 Z+ G: o
26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
_6 N- C- S1 [8 J31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
1 B& g+ c; n1 L E/ E6 k2 D30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
! M7 b8 v% H8 F+ O, R* o7 n. G33.9 58.2 1022 33.3 64.5 1074 + _( f; v$ U v) e+ w% a
34.6 64.6 1097 30.4 64.1 1029 9 j3 F, [3 e* t, V7 L
● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
: i6 E5 Y# F" R9 V3 ?9 Y+ x( \, R
. W. \% P9 l9 g0 U 4 ? X% i* Y5 d' L) J1 d* O
● 输出结果及说明
* J/ u& G* M8 D0 f( b. ], f Correlation Analysis
- l9 L" ^% h3 T! g 3 'VAR' Variables: X1 X2 Y
/ A1 e( s; e8 L6 r% b; p8 k1 J Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
8 b2 B6 h9 m2 m3 w- J' @0 v X1 X2 Y& i) E9 g' M# J% y8 T. f7 C
X1 1.00000 -0.71738 0.62939$ U. Z! @# J" d5 X3 z
0.0 0.0058 0.0212$ z: }6 g* n5 X, C+ Q& D
X2 -0.71738 1.00000 0.01347% B' f* v6 h, a0 E7 f( P
0.0058 0.0 0.9652
3 K1 J# p) d" `& F1 Z Y 0.62939 0.01347 1.00000
, d' C: E( {1 P, C 0.0212 0.9652 0.0 ! b2 [) w1 [7 x# A' V
由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。7 n& z( I7 }" h; n# f9 `
+ \0 I4 y; N( g8 @9 o+ l
|