SAS相关性分析 o4 D2 n# @* P# Y
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。$ l$ e1 Z7 \. c3 _$ ]* [/ Z! I
回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。4 v9 a% q" ?/ O# @& k
9 f7 i) Z* K( `CORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;
, K- U' ] C) J1 S; v- p: M2 n ' y* {0 F/ r- Y! P; \
复制代码' G V7 G# a4 y
CORR过程语句说明
' K, b: `: F! {一、PROC CORR语句选择项3 M% h; B1 t' a
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
1 c3 J5 d9 K' {+ \. g/ WOUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。/ |# e& g& s% p- U4 u1 A, {, H
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。# D# O% Z, U! g0 T4 n
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
3 O5 W& J: M0 s# \% Q& A1 z n8 qOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
4 x o* _$ b# ?% k, rPEARSON 计算通常的Pearson积矩相关,是缺省值。
+ ^& J9 e E' Q6 ^: MSPEARMAN 计算Spearman等级相关系数
1 d" s9 D9 l- S! O# p! xKENDALL 计算Kendallτ-b系数。
) o; R+ w0 _# }8 M9 u1 JHOEFFDING 计算Hoeffding D统计量。
, a- Z8 i6 Z3 W/ INOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
: f# B. V# a8 ~* [) |1 LVARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。+ s V" Q, f$ Y+ F5 \
NOSIMPLE 抑制简单统计。" r6 i- v/ U$ Z3 i
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。! G" g$ `) G* `$ Q
NOPRINT 抑制任何报表的输出。* g* A% B- i2 G( x% i, B( j
NOCORR 在输出数据集中不包括相关系数。7 z0 V+ C% F& ]+ ~7 G$ K% y9 A v
NOPROB 不输出相关系数的显著性测验。. Z8 {2 I; ^/ P1 o7 i5 r$ x) g* g& t
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。4 T f) I# d2 W+ q
二、VAR语句
% \3 C! C+ f8 J7 J% \VAR 变量表2 q* ]( K6 L5 d4 K) U5 F
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。; a5 @2 d" d* w1 F# j- D. |
三、WITH语句! Q- S& a# a7 G1 h; G! }! |
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。8 C1 w* ^: O7 s% \. R
四、PARTIAL语句
_1 V; [/ C' `) ^- [PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
1 h1 Q2 E( [( v7 {, w3 {* {7 }
0 X+ j7 l" c8 X+ K2 L应用实例
# u! x: H2 W5 u, I6 C例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。: K+ h+ @) I) t% S/ O# g, H
表1 累积温和一代三化螟蛾盛发期的关系数据/ x3 K' O; p2 O- L8 J- `' G
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2; V* ] w1 k e a# U( F( u
Y盛发期 12 16 9 2 7 3 13 9 -15 z' `0 p$ G% W7 i6 E
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
, T! Y6 z# M) H7 q" \9 O' r
. _& m0 N- D9 h7 w2 p% F0 r6 {# Q ● 输出结果及说明, D# G7 E" t9 n- g& d) C% D8 p& S
Correlation Analysis相关分析
# r! A( w4 k( V( T5 V 2 'VAR' Variables: X Y / c" n) ^$ ?2 x5 n7 p
Simple Statistics. \/ e0 u( |1 I; @
简单统计
- U$ N( d: Q! m" D7 R! U) f+ fVariable N Mean Std Dev Sum Minimum Maximum
+ T' U5 r" H# Q, k; G变量名 观察值个数 平均数 标准差 总和 最小数 最大数
# N3 n9 e' N: q; [2 s7 {X 9 37.07778 4.25199 333.70000 31.70000 44.20000
* [/ x( i- c3 p* v' @2 @6 KY 9 7.77778 5.58520 70.00000 -1.00000 16.00000
, E% q& r0 p2 e, X K, n( p
2 h( @5 @$ A* Y+ [. x0 s Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
0 M' `: I+ O1 | PEARSON相关系数. z- \" c: m' ]# c- j6 P3 |
X Y( w% v: K0 h' M( p" B! _. B
X 1.00000 -0.83714# e$ U4 l+ ` l/ J
0.0 0.00494 ]3 P! z/ ^9 E* y3 p
Y -0.83714 1.000009 V7 Q& ~& k: L1 B' a/ R
0.0049 0.0 ( o( e% D+ e, G" h/ Q. d: f
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。! i" f& ]- {' ]! p' H
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。
$ F1 |; r3 K4 d# n表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
* D4 d! b+ L4 }6 t! M$ h6 X% cx1 x2 Y x1 x2 Y x1 x2 Y2 R( a1 B; I" Y. F$ S- p
26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
0 d* k7 J* g- c4 x31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
0 G* M7 w! x, D/ \30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045. N- d4 ^. ^6 |2 b* z6 o! x/ V
33.9 58.2 1022 33.3 64.5 1074 % d. b% B9 b/ M( e
34.6 64.6 1097 30.4 64.1 1029
- E- }! m- h( b' y# \+ i1 l● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;) P$ L& K$ l9 J7 D( K8 K
& `0 K9 S3 O- h+ E
& o9 x, X$ i1 [" h, e: I● 输出结果及说明
( s3 g! m' D" T Correlation Analysis
- Q. s5 R" Z1 H 3 'VAR' Variables: X1 X2 Y : R2 F; d0 E, Z' Z4 f* W) C
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
. L& @; |8 U4 o$ ?5 [2 L) R% S7 C- s0 c X1 X2 Y4 _6 H5 ]) y t, S' J
X1 1.00000 -0.71738 0.62939# L3 C& F" e( s( o4 S
0.0 0.0058 0.0212
. ? E5 M+ g5 L X2 -0.71738 1.00000 0.01347
( d; U6 q. l9 |# h. [6 Z0 x+ K 0.0058 0.0 0.9652
/ w8 x+ D% d7 u Y 0.62939 0.01347 1.000007 [* A) D8 y ?- S8 e! t
0.0212 0.9652 0.0 2 h# ^1 L1 k6 D6 T
由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。
$ U8 G- x i5 T w' X: G/ C2 _
' C. n" X4 C( o" r$ F& G2 A9 O" M! j |