SAS相关性分析
5 K' F$ D8 ]( a9 d5 N* {; o2 ? 在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
# w8 ^4 l! d: ~- A1 w. ]8 j 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
8 x" a9 G \- W) g- n0 a2 f: P/ Q9 z# g2 X" M
CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;
- K2 Y: m( h0 l# ?6 [
- c y- x l" X7 K$ i, }复制代码8 G/ w- b6 {7 z/ i& z+ Y( m
CORR过程语句说明3 s* k% L; p( A& I
一、PROC CORR语句选择项% q! k) b; O( Z6 t. p
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。* `; N* |8 J: Z v/ H$ r$ b! m& e; W
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
6 U' P6 H; T7 C7 s( GOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。' k: `8 l" u$ |% D. t( X+ Z) \/ J
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。. G8 j8 l9 m V R, ~
OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。# J- u& r7 Q' w1 F5 x" Q, r7 B
PEARSON 计算通常的Pearson积矩相关,是缺省值。
* E$ p* U, T4 S0 }" N K! F6 D: [SPEARMAN 计算Spearman等级相关系数- D5 i, H: F/ O0 ]7 `/ {$ s! A# \
KENDALL 计算Kendallτ-b系数。, ^ h5 X5 ^9 k6 W e0 h
HOEFFDING 计算Hoeffding D统计量。& b* x: D8 D6 R
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
; l6 N! w4 }5 N, z- bVARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
% s" M" o6 f% M8 l+ h4 {0 ANOSIMPLE 抑制简单统计。' Z9 D/ A! J4 V1 x
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。# [4 S3 v8 l2 s8 S* t3 J
NOPRINT 抑制任何报表的输出。
% r5 N+ U8 j J. b* bNOCORR 在输出数据集中不包括相关系数。
" m0 [ D- K2 ?6 \( eNOPROB 不输出相关系数的显著性测验。
( Z* B) ?" Z5 i% g1 g3 _RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。! @$ F$ A2 c/ k
二、VAR语句7 v# { x" Z) X
VAR 变量表% }& z% C& |: Q7 x$ }
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
1 Z7 T; m$ R7 i4 B7 I三、WITH语句' B, D* m* ?. a# Y
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。4 ~ j& D9 M' P
四、PARTIAL语句
- k" j" ^) c& G2 r$ HPARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。% v+ A* ]# o- C3 F- Z: D$ D
2 ? i1 g1 t+ }0 X8 Z1 [
应用实例
2 I& [ X* e2 Q2 \' |例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
. C& {" J: j$ L; _" Y( z表1 累积温和一代三化螟蛾盛发期的关系数据5 d% o; B) x0 w" U$ S# A3 _, B
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2+ L0 O4 N$ Q0 U0 W4 @5 V
Y盛发期 12 16 9 2 7 3 13 9 -1) N( a# ]; W: Q, D2 o3 R
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;0 q% C4 z. v0 S* q; E) ]
6 B6 K6 k: X1 {% D7 Y' x" m% o
● 输出结果及说明& w$ X* [9 ^ ^4 b0 E4 M/ n- G
Correlation Analysis相关分析
; e/ m. O* R O3 n1 z: j, R 2 'VAR' Variables: X Y
, R: d- H. c- f; u9 w$ q Simple Statistics, [- D5 a% V0 h) s @3 {5 }
简单统计
1 B' c- ^% K) t0 m( d9 d" ]Variable N Mean Std Dev Sum Minimum Maximum: _ h# N! Z1 t: {( e a9 Y
变量名 观察值个数 平均数 标准差 总和 最小数 最大数
u6 i/ r: l0 w' D/ F% lX 9 37.07778 4.25199 333.70000 31.70000 44.20000: ~; E4 j) N; A/ {5 c
Y 9 7.77778 5.58520 70.00000 -1.00000 16.000006 V4 H7 l5 @3 _. |/ m, p1 M
& E; a# z, a8 j0 m Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
9 c$ v/ T! F' i" j- L. M! `' ^/ I PEARSON相关系数7 M3 b) A1 V; e0 Q2 O8 H
X Y6 u% i) e3 V+ Y" a& r
X 1.00000 -0.83714
: C% U7 I/ W# U" {4 Z. J% [ 0.0 0.00492 @; F/ R1 |7 S. i
Y -0.83714 1.00000) h/ K3 ~" V/ l1 t9 F) W: Z
0.0049 0.0 " I! ^( m9 ~- |/ z
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。 J! @% ]; Q4 [' _- i4 ^' g6 ~8 U/ \
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。8 D0 @3 q$ k* [ S
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)/ `* N8 u, E7 K( F
x1 x2 Y x1 x2 Y x1 x2 Y }+ r( F! f$ Z% d+ Q6 q* ]6 V
26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004) S! T& ]% @ ~
31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
( O: M( N& M+ `7 E3 O1 F30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
8 f4 H( |) b- {! K x t33.9 58.2 1022 33.3 64.5 1074
2 f1 s4 l+ I% _8 a& D" P) u* [: Y+ X34.6 64.6 1097 30.4 64.1 1029 6 ?6 e- {/ N& d
● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;) D( a0 P) ~) {9 @0 R7 [6 Q
6 T2 g& `! M2 n+ m / J, I/ z8 s& S7 q- r8 a& A& _
● 输出结果及说明) K1 @* s8 F, ^4 k) ~6 `6 [
Correlation Analysis
. T2 w/ s( G! r3 C 3 'VAR' Variables: X1 X2 Y & M, w' l- m& K% g7 [4 N" q
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13 ( ~5 W+ l. J1 Y0 F
X1 X2 Y; D# M& W* A- u _
X1 1.00000 -0.71738 0.62939
+ k. c1 o; I$ z! m 0.0 0.0058 0.02128 l, h; M) M1 E/ G( M& y
X2 -0.71738 1.00000 0.013478 W$ l) T3 B- \8 r
0.0058 0.0 0.9652
5 ?/ i$ Y8 V( s' `8 { Y 0.62939 0.01347 1.00000
8 K& i- l; c8 Z7 E 0.0212 0.9652 0.0
3 K/ m8 L0 h5 P5 T2 b/ D e由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。- [3 W) q9 L% l3 t, s- \
! G6 R* N$ W1 \$ |6 | |