查看: 4260|回复: 3

[建模教程] SAS相关性分析（附带实例解析，特别有用）

字体大小: 正常放大

453 主题	24 听众	4332 积分

TA的每日心情

	奋斗 2016-9-9 07:08

签到天数: 157 天

[LV.7]常住居民III

国际赛参赛者

自我介绍: 建模爱好者

群组: 2015SAS数据分析大赛

群组: 西京学院数学建模协会

电梯直达

1^#

发表于 2015-10-5 19:16 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

SAS相关性分析

在统计上，x和y变数的关系有两种理论模型，第一种是回归模型；第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外，还具有预测的特征，即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内，一个变数的任一变量（如xi），虽然没有另一个变数的一个确定数值yi与之对应，但是却有一个特定的yi的条件概率分布与之对应，只要这种关系存在，我们就定义变数y和x有相关关系。相关模型中，没有自变数和依变数的区别，不具有预测特性，它仅表示两个变数的偕同变异。
4 N5 @+ q5 E5 l, L1 B2 ^' `& S 回归模型资料的统计方法叫回归分析，这一分析方法是要导出由x来预测或控制Y的回归方程，并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析，这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数，包括Pearson，Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。
$ J) x1 u% A# ?% f
+ ?* R' l- S: h( f, U! R3 KCORR过程格式

PROC CORR;
VAR 变量表;
WITH 变量表;
PARTIAL 变量表;
WEIGHT 变量;
FREQ 变量;
BY 变量表; h- @- @% `) }- q+ t

复制代码
CORR过程语句说明
一、PROC CORR语句选择项
DATA＝数据集指明需处理的数据集名，缺省时为当前数据集。
OUTP=数据集要求产生一个含有Pearson相关的一个新数据集。
OUTS=数据集要求产生一个含有Spearman相关的一个新数据集。
OUTK=数据集要求产生一个含有Kendall相关的一个新数据集。
OUTH=数据集要求产生一个含有Hoeffding相关的一个新数据集。
PEARSON 计算通常的Pearson积矩相关，是缺省值。
SPEARMAN 计算Spearman等级相关系数
KENDALL 计算Kendallτ-b系数。
HOEFFDING 计算Hoeffding D统计量。
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数，DF自由度，WGT权重合，WDF权重合减1。
NOSIMPLE 抑制简单统计。
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。
NOPRINT 抑制任何报表的输出。
NOCORR 在输出数据集中不包括相关系数。
NOPROB 不输出相关系数的显著性测验。
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
二、VAR语句
VAR 变量表
指明要计算相关分析的变量名，缺省时，计算所有数值型变量间相关系数。
三、WITH语句
WITH变量表指明特别配对的变量名，与VAR语句配对使用，VAR语句列出相关矩阵上部出现的变量，WITH语句列出左侧出现的变量。
四、PARTIAL语句
PARTIAL变量表指明求偏相关时的偏变量名，同时激活NOMISS选择项。

应用实例
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值（x，单位：旬.度）和一代三化螟蛾盛发期（y，以5月10日为0）的数据见表1，试计算x和y的相关系数和决定系数。
表1 累积温和一代三化螟蛾盛发期的关系数据
X累积温        35.5        34.1        31.7        40.3        36.8       40.2        31.7        39.2        44.2
Y盛发期        12        16        9        2        7        3       13        9        -1
●        程序及说明

DATA new;
INPUT x y@@;
CARDS;
35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
PROC CORR;
VAR x y;
RUN;
& m9 a$ W# p( [# n

●       输出结果及说明
  W. e  v8 O; f5 b9 D* `                               Correlation Analysis相关分析
9 l1 G, j: Q% K3 r                         2 'VAR' Variables:  X       Y
" ?( _( v- W% F. F- {1 K4 B6 h$ V       Simple Statistics
5 L9 x, o. k* k8 i# b简单统计
& U8 x& s" h9 u$ ]Variable    N       Mean    Std Dev       Sum    Minimum    Maximum0 c# j  y; X5 ]7 ~, p4 F' q# O" n
变量名    观察值个数平均数标准差       总和    最小数       最大数% \$ B" m7 q1 b* o! y2 t  I# R9 N' y8 H
X          9    37.07778    4.25199 333.70000    31.70000    44.20000& f$ w2 O  r5 I% K- c: L: }) ~
Y          9    7.77778    5.58520    70.00000    -1.00000    16.00000
- E: |" K7 z# @; I0 N+ q5 d: r
' ]  ?6 y) I" N+ B    Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9  ; b: I& L; y4 z/ y
   PEARSON相关系数7 ~5 F% }- w" Z: k( p
                                       X                Y
9 Z" I6 A, P  R/ e8 D6 F) r/ s                      X          1.00000       -0.83714" A$ _7 n% T% O1 D& ^
                                 0.0             0.0049
) @# d! s' |& V# o8 \4 c" r                      Y       -0.83714          1.00000( j' i! q" T. f- ?6 k  t
                                 0.0049          0.0 + w, U2 w* p/ F" C, j2 C
可见，x与y相关系数为-0.83714，概率为0.0049，达到极显著水平。% m. x: r& I2 r  T2 k3 t5 @
例2 测定13块中籼南京11号高产田的每亩穗数（x1，单位：万）、每穗粒数（x2）和每亩稻谷产量（y，单位：斤），得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。9 g7 Z6 l. D& J! D" @
表2 每亩穗数（x1）、每穗粒数（x2）与亩产量（y）3 A, \8 V: P' o0 ^4 w# }
x1       x2       Y       x1       x2       Y       x1    x2       Y5 p! e0 W/ \7 T& |2 c! \! X# Y
26.7       73.4       1008       33.8       64.6       1103    31.5       61.1       1004
' ~! J/ ]" |3 P% h" }+ }1 s31.3       59.0       959       30.4       62.1       992    33.1       56.0       9956 f5 B) H- V  X: a) T* V
30.4       65.9       1051       27.0       71.4       945    34.0       59.8       1045- h( w* t/ v- _7 m4 Z
33.9       58.2       1022       33.3       64.5       1074                   ! i$ e! F9 ~3 m3 E5 C
34.6       64.6       1097       30.4       64.1       1029
  r& V5 t; V" y' x' d' c5 t8 B8 A& a●       程序及说明

DATA new;
INPUT x1 x2 y;
Cards;
26.7 73.4 1008
31.3 59.0 959
30.4 65.9 1051
33.9 58.2 1022
34.6 64.6 1097
33.8 64.6 1103
30.4 62.1 992
27.0 71.4 945
33.3 64.5 1074
30.4 64.1 1029
31.5 61.1 1004
33.1 56.0 995
34.0 59.8 1045
PROC CORR NOSIMPLE;
VAR x1 x2 y;
RUN;9 R* u: s ~0 z+ ]7 v

●        输出结果及说明
                                Correlation Analysis
                     3 'VAR' Variables: X1       X2       Y
      Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
                                X1                X2             Y
              X1          1.00000          -0.71738          0.62939
                           0.0               0.0058            0.0212
              X2          -0.71738          1.00000          0.01347
                           0.0058            0.0               0.9652
              Y            0.62939          0.01347          1.00000
                           0.0212            0.9652          0.0
由相关分析可知，x1和x2间的相关系数为-0.71738，达极显著水平（P=0.0058<0.01）；x1和y的相关系数为0.62939，达显著水平（P=0.0212<0.05）；x2和y的相关系数为0.01347，未达到显著水平（P=0.9652>0.05）。

zan