SAS相关性分析; A1 W: i% ~+ o8 Z
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
+ ~3 N& _ w2 M 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
# q# @3 m+ M0 v( ]( e; b
* [. ~3 Z3 u9 X4 ]5 D8 TCORR过程格式 - PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;
' B: }5 p9 v1 Y# b/ r! p * v6 K' z7 j$ `: C% X3 t
复制代码
! M9 d) a8 G! g: a- nCORR过程语句说明: V" B2 z+ ^) P% t+ k1 b
一、PROC CORR语句选择项
5 r2 J; b6 h; qDATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
8 Q% s8 ]+ Z/ a; ^OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
6 v$ v% s" c$ @$ h. oOUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。
9 @9 L* T$ O4 ~# HOUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
9 L" j$ j% N }+ {% D8 lOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。. `; ?' r0 P& ^5 b1 y
PEARSON 计算通常的Pearson积矩相关,是缺省值。" q$ r* B: i; r1 }$ t5 g6 [5 q
SPEARMAN 计算Spearman等级相关系数 j N) v# f6 x& M6 x: f' D
KENDALL 计算Kendallτ-b系数。8 I& Y% j" f, K' Y; k
HOEFFDING 计算Hoeffding D统计量。
5 |) ~) C$ S0 H* T- x' mNOMISS 将带有某一变量缺失值的观察值从所有计算中除去。2 [7 }% ]3 c" n# h6 |* q
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。0 @9 R" \! }% B7 Z( v, X
NOSIMPLE 抑制简单统计。
! N. p! i8 v2 G1 W: kBEST=n 只输出每个变量与其他变量间最高的n个相关系数。. Y8 o! Z. N0 h0 y- r- t. h
NOPRINT 抑制任何报表的输出。- y& l+ C2 M% l8 `* i, z- v
NOCORR 在输出数据集中不包括相关系数。
% {. Y5 y5 G1 Z% W0 hNOPROB 不输出相关系数的显著性测验。
/ p# t7 W1 j. Q0 p* X) f, h! O2 nRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。 G8 j) g# a6 o& e; c: I* n' {# a" r
二、VAR语句
* m# f$ Y7 t( b7 q ] wVAR 变量表- O- \! O, Z- B& a, `
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
+ t! B+ u! R- e- G三、WITH语句; Y5 ]& z' a. M: U6 y
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
7 S% K3 R- i' y, q* C四、PARTIAL语句
, d K* p7 P2 q9 i$ d+ D1 h0 X. ]PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。4 x- S: B1 k; T; _7 H( D& U
( n. P+ V: C9 c( ?! {& ~应用实例
$ ]( s& r6 @% ]' Y例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
: ~$ C1 o4 j: c0 X1 N* h表1 累积温和一代三化螟蛾盛发期的关系数据, ]* p* y7 `1 p+ k5 y) h& B- [+ S8 P
X累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2: G, X8 R& s: h. U$ T% f, d
Y盛发期 12 16 9 2 7 3 13 9 -1: ]# @( I. y6 E e+ r" k' l8 ?
● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;8 |% N1 Y- c# F) _
. F8 P# w( w. e. h1 d: K$ U
● 输出结果及说明1 }: v0 K) Y9 w8 ?7 E7 b! e
Correlation Analysis相关分析
7 a/ D2 n! Y5 J! e+ s6 f 2 'VAR' Variables: X Y
" [4 Y3 C! D" a- q/ ` Simple Statistics$ B# |2 b. o# w" o* P8 D
简单统计; C; Z$ W' L, p
Variable N Mean Std Dev Sum Minimum Maximum2 o: g. k. Q) T# X6 a( N7 W
变量名 观察值个数 平均数 标准差 总和 最小数 最大数
% O2 Y2 c, a; r8 X- F9 t: nX 9 37.07778 4.25199 333.70000 31.70000 44.20000
6 T/ G: z) @6 qY 9 7.77778 5.58520 70.00000 -1.00000 16.000000 C( N- S- [/ \+ e6 C9 P8 o
* _! N* Q- O# L, x
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
% R) W Y0 W' K$ |( m PEARSON相关系数7 @; q/ Z- g7 q/ Q
X Y
8 A' ~ A9 H5 B* P3 S' n X 1.00000 -0.83714
5 [0 K& Z, d+ e; r! L 0.0 0.0049
# V' s, [4 V4 P k Y -0.83714 1.00000: O# K- h7 I' n1 q. W
0.0049 0.0 ' [% x4 ~# X. {
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。
+ z0 [( A% }4 g2 r例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。' ]: j# E, V0 G3 v1 ]
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)" Q. l+ \+ M3 ^4 e. j
x1 x2 Y x1 x2 Y x1 x2 Y4 Q% Q# G7 `4 W$ g
26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004
) P# A; B- I# u, J9 U9 c31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
6 k+ G' B" F/ c& y1 d: x30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
t2 y9 O/ c- m' T( x9 P33.9 58.2 1022 33.3 64.5 1074 * G$ E6 i+ ^" p i) |7 u# g
34.6 64.6 1097 30.4 64.1 1029
Z7 e; M1 S2 J" W: G1 q6 S● 程序及说明 - DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;
, b# m7 w" u2 o+ M 4 j8 P5 R) U5 l: d! Z+ v
9 A: }4 U9 v) Q3 r: N) J/ t$ N● 输出结果及说明
3 h1 e$ e' i* o5 F Correlation Analysis
: P" U( g/ U, `0 u* R0 ^1 X 3 'VAR' Variables: X1 X2 Y ' o: e- u2 G/ I4 K( Y( Y
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
7 v) z& L+ b* N. @( k% D3 ^ X1 X2 Y) l3 i q0 _( M ?% x( _! Z; v0 N6 E
X1 1.00000 -0.71738 0.62939
N \: D, Q( Q$ k. Q 0.0 0.0058 0.0212. V( L' O7 r s1 G% K
X2 -0.71738 1.00000 0.01347
5 O( a, \ B- ]. S& P 0.0058 0.0 0.9652" S/ T9 |* z# p g" S
Y 0.62939 0.01347 1.00000& v# U! { t9 L: v! k
0.0212 0.9652 0.0
1 B& S. J7 ?* W" r, J由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。
# }7 L, c+ k3 U% B
) C3 K& y5 f6 [7 m) t6 m$ ^ |