数学建模社区-数学中国
标题: SAS相关性分析(附带实例解析,特别有用) [打印本页]
作者: 建模人生 时间: 2015-10-5 19:16
标题: SAS相关性分析(附带实例解析,特别有用)
SAS相关性分析2 B6 Z: p* ]/ ~" y4 m2 y
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
N8 V6 I, f/ p( S0 c8 ~0 m& b 回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。, l3 {, m1 m( M7 ]2 T, j% r
* i/ d5 e% X5 z/ Q- iCORR过程格式
- PROC CORR;
- VAR 变量表;
- WITH 变量表;
- PARTIAL 变量表;
- WEIGHT 变量;
- FREQ 变量;
- BY 变量表;4 K5 C1 F, U/ N" t! p
1 p2 _7 S1 I4 Q& D: x; F; [- M4 w/ \复制代码+ ?7 y! W1 {! q% N% s
CORR过程语句说明1 f3 A) t; Z S3 e+ P9 t2 Z1 Y
一、PROC CORR语句选择项( l- C: Y$ b% ?: c% x! y
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
7 _, [6 z: ]" ^2 lOUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
: o' G5 ?, P3 a- z7 W3 A6 {OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。: C. ]- I6 V) b" T& ` W8 V' F {
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
5 u5 v, k3 H" ^OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
3 a; o8 @. j3 S, GPEARSON 计算通常的Pearson积矩相关,是缺省值。
6 n/ S* }' D; sSPEARMAN 计算Spearman等级相关系数
2 z; a/ [' v! nKENDALL 计算Kendallτ-b系数。6 s$ ]4 _- e8 u) u
HOEFFDING 计算Hoeffding D统计量。5 g9 B9 y% E" J, a
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。) j8 x, d; N6 V
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。) {# ?0 t) I9 X$ i
NOSIMPLE 抑制简单统计。
& N) y4 ]0 V" G+ c; P) \! C% gBEST=n 只输出每个变量与其他变量间最高的n个相关系数。, _7 z( D# f$ _4 h4 R
NOPRINT 抑制任何报表的输出。
" w) D) F s' fNOCORR 在输出数据集中不包括相关系数。1 d! n v# M8 n3 ~5 n* a2 _
NOPROB 不输出相关系数的显著性测验。
, L9 Z9 c5 `& Y$ RRANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。* U3 y: v" t. O. `
二、VAR语句$ @4 @6 [7 l0 g# g. ]
VAR 变量表9 Q( ^! |3 |: b1 J; N* Z( g
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
# I* r2 z7 q3 z" v9 o" i. U; Y三、WITH语句
5 ? L n4 T, L5 D1 g* ZWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
' r9 @: R, ]0 B: X: ?$ @四、PARTIAL语句9 S( M' s! f0 h& v0 g3 R8 o- L2 n
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。) F+ T" S" F5 G
T! l7 r- u: L* q' A' P3 B6 J! c应用实例: \6 }1 T: \% v' T1 ~+ t
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
5 N% J n R& D# F x表1 累积温和一代三化螟蛾盛发期的关系数据
. z) i7 X+ a) e2 {% ^) D( kX累积温 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.26 f/ ~' }* T2 H
Y盛发期 12 16 9 2 7 3 13 9 -1
# Y( N* C% E' b5 {! O; L● 程序及说明- DATA new;
- INPUT x y@@;
- CARDS;
- 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
- PROC CORR;
- VAR x y;
- RUN;
' L! ?5 d6 g$ L4 V
2 s8 e( B% I& `9 L
● 输出结果及说明
1 |, C7 F/ I% P" Z+ r8 U, W! J Correlation Analysis相关分析
+ x1 d" U; A. w: A& [8 V# c6 A 2 'VAR' Variables: X Y ; j! A; u) u4 v; f0 H
Simple Statistics
* n1 g# N, g. q简单统计
" w7 y' l- G7 e9 }Variable N Mean Std Dev Sum Minimum Maximum
$ [2 [9 \3 X7 h( i) B. s7 n变量名 观察值个数 平均数 标准差 总和 最小数 最大数
- a" U0 R7 _6 P. A$ J( C8 ?X 9 37.07778 4.25199 333.70000 31.70000 44.20000
! b! E0 m: R4 V0 qY 9 7.77778 5.58520 70.00000 -1.00000 16.00000- Q$ e9 W& w! l3 _+ k
0 S) H5 L% W/ N9 y5 n( N v
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9
$ o: _2 y i) {" y t# Z PEARSON相关系数5 ~* ?8 L8 E' D! X
X Y6 o) u* s) l: m( S3 P) C4 X
X 1.00000 -0.83714
$ a! ]0 ]1 `$ S, u 0.0 0.0049
, p' Z; a: Q0 I) M Y -0.83714 1.00000
2 ~0 r4 _2 w6 |' ]! q; W 0.0049 0.0
3 Y' K7 v. J2 }4 [: s5 b可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。
9 ]4 P. [# r1 a) e2 V' R g例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。2 Z) N, D* [5 K
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)/ C0 {. P3 [6 p
x1 x2 Y x1 x2 Y x1 x2 Y
, E$ P5 H2 L+ j5 c( s9 X/ l5 C26.7 73.4 1008 33.8 64.6 1103 31.5 61.1 1004" k- S) c& r2 B# g m* G
31.3 59.0 959 30.4 62.1 992 33.1 56.0 995
" s! l2 H/ ?2 s, N. }9 q30.4 65.9 1051 27.0 71.4 945 34.0 59.8 1045
( H! n$ ~2 w; T( W33.9 58.2 1022 33.3 64.5 1074 9 w3 ^% C: |1 K) _& b- m: ~
34.6 64.6 1097 30.4 64.1 1029 * L; B# r- s$ n& R
● 程序及说明
- DATA new;
- INPUT x1 x2 y;
- Cards;
- 26.7 73.4 1008
- 31.3 59.0 959
- 30.4 65.9 1051
- 33.9 58.2 1022
- 34.6 64.6 1097
- 33.8 64.6 1103
- 30.4 62.1 992
- 27.0 71.4 945
- 33.3 64.5 1074
- 30.4 64.1 1029
- 31.5 61.1 1004
- 33.1 56.0 995
- 34.0 59.8 1045
- PROC CORR NOSIMPLE;
- VAR x1 x2 y;
- RUN;/ U3 C3 ]3 _# `; c5 @. |6 l2 q
) b+ F% \& c/ `3 N
L* U' E3 t/ P! f/ H3 k$ ^! o- u● 输出结果及说明
) L% z; B4 _) I# l Correlation Analysis t e# [% x- g7 y6 Y- o
3 'VAR' Variables: X1 X2 Y
, {3 M$ ~- \6 L8 c" j Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
. y8 G/ o6 W+ s X1 X2 Y& k- Q3 \$ s* l& S; o8 ?# u
X1 1.00000 -0.71738 0.62939
; g% p# B. S# i/ c- P 0.0 0.0058 0.0212( e7 d! g: L8 y
X2 -0.71738 1.00000 0.01347
: ~0 k1 p% F1 c 0.0058 0.0 0.96528 O a, n6 a/ N& c
Y 0.62939 0.01347 1.000000 v g! r" |! x
0.0212 0.9652 0.0 # u h& K! u* a- Y% m+ b
由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。
3 R A0 u+ r$ [2 `1 g# ^; i
# R2 L P+ t4 J1 s8 }& A" P
作者: 樂淘淘 时间: 2015-11-29 09:02
好好好好好好好好1 }! D9 I2 j& r2 y3 Y) b
作者: 废材 时间: 2016-9-4 09:25
学习一下。。。
5 [; Y* W6 `* N) k4 z) A
9 E# p1 c$ t1 O1 R) |- K) }) b
作者: 废材 时间: 2016-9-4 09:26
学习xuexi,,,5 C( G0 e$ p! D' _. p X' D
| 欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) |
Powered by Discuz! X2.5 |