数学建模社区-数学中国

标题: SAS相关性分析(附带实例解析,特别有用) [打印本页]

作者: 建模人生    时间: 2015-10-5 19:16
标题: SAS相关性分析(附带实例解析,特别有用)
SAS相关性分析
% z# {: J  U+ o+ o! x) g9 H

在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
+ D& {8 P0 _% c6 d, H( ?! P7 @* O* F    回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
. i+ K/ ?  V0 @1 r0 J2 L! |
* _3 @2 z+ ^) P# A) kCORR过程格式

  • PROC CORR;
  • VAR 变量表;
  • WITH 变量表;
  • PARTIAL 变量表;
  • WEIGHT 变量;
  • FREQ 变量;
  • BY 变量表;4 V! G, D0 m* E

# V- l, W  g) F; z& ^复制代码
& ^8 w% r7 ]6 ~8 Y# W0 W6 h5 W, K' N' C
CORR过程语句说明2 V' n3 K, t1 Z3 B# i
一、PROC CORR语句选择项3 L7 b8 \) B: E) {
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
; A+ D+ E2 ^+ R+ \# f. ]OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。1 e0 ~( G" \1 P/ f# i4 C1 |
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。
" {& |- R: R3 T$ X2 s& i+ rOUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
% K$ V6 [0 x  C+ ^  X4 TOUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。5 ~3 ^7 c2 C. X3 C
PEARSON 计算通常的Pearson积矩相关,是缺省值。
+ S$ P' L" m! ?SPEARMAN 计算Spearman等级相关系数
+ P3 s5 j6 s+ jKENDALL 计算Kendallτ-b系数。
9 H. B; M" C7 D  r& oHOEFFDING 计算Hoeffding D统计量。, V2 q& B: m$ O4 U
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。- S  ^" ~. s& Y1 l' g% ]5 h) a
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。' e% j. v# I1 E1 |: T1 Y
NOSIMPLE 抑制简单统计。2 _2 {. X& M( j
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。; H' V4 P6 d& u: a
NOPRINT 抑制任何报表的输出。
$ b: e- c# R8 c% q0 B* b: t, pNOCORR 在输出数据集中不包括相关系数。
3 g4 ]6 O8 n: Y# u& p2 hNOPROB 不输出相关系数的显著性测验。1 u- g( D! r5 n' q; \, h+ Q: v
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。2 [- r5 p3 C: V; A) C9 F
二、VAR语句: E; u7 W& U2 z
VAR 变量表
" V# `8 q  f# S$ E, f! B) ~指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
0 G: b7 c. b5 U% c  j三、WITH语句
; g- W, C# e# b% G$ qWITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
; y* X: Z. O. F' ]6 }- p* Y四、PARTIAL语句
- N- Z! B4 k4 V; I0 K& [) [( fPARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。
3 r+ x% D0 K/ z6 r- l
4 s0 ]4 J& T0 c# a7 V! D应用实例
* E0 r4 [; @7 b, n' o. g5 Z例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
9 H! M( b' P5 _2 B表1 累积温和一代三化螟蛾盛发期的关系数据2 g$ \2 n0 x6 J; H
X累积温        35.5        34.1        31.7        40.3        36.8       40.2        31.7        39.2        44.2" F, o$ ]' l7 X8 @" w* A  P4 l& S
Y盛发期        12        16        9        2        7        3       13        9        -12 O2 c; D* x! f* t
       程序及说明
  •    DATA new;
  •     INPUT x y@@;
  •   CARDS;
  •      35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
  • PROC CORR;
  •   VAR x y;
  • RUN;
    : Q7 y8 F7 Z0 m) ?, F+ g
' M+ N9 a' r! }$ ~* h

●        输出结果及说明: ]# I- B0 A. Q& S" i# T! W
                                 Correlation Analysis相关分析$ ?  Q2 S) t! P: c' r! I3 @
                          2 'VAR' Variables:  X        Y      " b% i7 {( l: {
         Simple Statistics
& r4 a! \1 U$ h% s8 T, @3 s6 E简单统计7 O! Z0 `4 h4 m) O
Variable      N         Mean      Std Dev          Sum      Minimum     Maximum
% W1 m/ E2 V4 d1 e( Q$ {变量名      观察值个数 平均数    标准差          总和      最小数        最大数
. g* @: y  ^5 F' c2 Q( N& nX            9     37.07778      4.25199    333.70000     31.70000     44.200003 X* h# m& o8 v: \$ J( G
Y            9      7.77778      5.58520     70.00000     -1.00000     16.00000
+ I3 N- m+ y0 @7 |* j) `7 J/ {
4 Z, l5 ]$ e' N2 h! Z5 y2 D       Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9  8 J* |) O7 L8 E
      PEARSON相关系数
- [2 G  q4 C' w4 n% \$ i                                          X                 Y
  _. w% }! J) ^; \+ q4 w+ P                        X           1.00000          -0.83714
7 n# y# ]2 j4 U                                    0.0               0.0049
9 a( X+ A- F. K% c6 _2 n& O0 |4 ~                        Y          -0.83714           1.000004 o  B  M/ X) l
                                    0.0049            0.0   
  G) b; {4 D0 l! v可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。+ ~0 t" J3 R" Z/ X  ^+ A$ s
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。
/ Y5 K) ^4 K: H7 n( G, x表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
! j% c+ d) c9 Y+ l1 T0 l* _5 @$ lx1        x2        Y        x1        x2        Y        x1       x2        Y
8 m" }2 b& B/ L) e% U; k  R/ J& I26.7        73.4        1008        33.8        64.6        1103       31.5        61.1        1004. y; N# J2 l! w" F& a
31.3        59.0        959        30.4        62.1        992       33.1        56.0        995
) i! ]5 a$ g9 M/ e) G, L) b& m, u30.4        65.9        1051        27.0        71.4        945       34.0        59.8        10458 I* v2 U: I2 k: v& b
33.9        58.2        1022        33.3        64.5        1074                     
( _  ^: J$ E9 |, [34.6        64.6        1097        30.4        64.1        1029                     
6 T: z& i/ |* Q8 U: y% B●        程序及说明

  •    DATA new;
  •    INPUT x1 x2 y;
  •    Cards;
  •       26.7    73.4    1008
  •       31.3    59.0    959
  •       30.4    65.9    1051
  •       33.9    58.2    1022
  •       34.6    64.6    1097
  •       33.8    64.6    1103
  •       30.4    62.1    992
  •       27.0    71.4    945
  •       33.3    64.5    1074
  •       30.4    64.1    1029
  •       31.5    61.1    1004
  •       33.1    56.0    995
  •       34.0    59.8    1045
  • PROC CORR NOSIMPLE;
  •   VAR x1 x2 y;
  • RUN;
    " l* d' G, }" q. M
: `- G/ {) ?- u, k- {
% X, [1 ]( k1 j8 K& O
       输出结果及说明
7 {: v" G" V' m! T$ J7 X5 M) H                                 Correlation Analysis
; h& h6 R- `7 @5 ^: {8 y                      3 'VAR' Variables: X1       X2       Y      
, M. S& V, {- v% m% g       Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
/ t+ @# M' n* r: C                                 X1                X2             Y: }* j' w& a; w  o1 T* j
              X1          1.00000          -0.71738          0.62939
0 t$ N1 `- E: q0 j+ B7 q% s                            0.0               0.0058            0.0212
1 U7 K. Y6 ?0 K; q' \0 Y               X2          -0.71738          1.00000          0.01347
. w: _* w* W% r2 D; d+ ~" G* e1 g/ o                            0.0058            0.0               0.9652
* `# r: f7 u) J4 t# X  B: A2 O               Y            0.62939          0.01347          1.000001 Q5 w9 |; ~! U. ?% }  y
                           0.0212            0.9652          0.0   
. W. |) g* G7 R2 G' I' ?由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。0 ^) G+ z. u0 P
* q9 X- i  U/ M  S9 F) o

作者: 樂淘淘    时间: 2015-11-29 09:02
好好好好好好好好
3 b" F. h: W# N3 }5 S# L, E
作者: 废材    时间: 2016-9-4 09:25
学习一下。。。3 a% b7 `- v+ L/ q2 P" t

7 x' m! f9 n9 X- q
作者: 废材    时间: 2016-9-4 09:26
学习xuexi,,,
' x; @/ S3 I) p9 d* r( z




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5