建模人生 发表于 2015-10-5 19:16

SAS相关性分析(附带实例解析,特别有用)

SAS相关性分析
在统计上,x和y变数的关系有两种理论模型,第一种是回归模型;第二种叫相关模型或双变数正态总体模型。回归模型除具有自变数和依变数的区别外,还具有预测的特征,即具有由x的数量变化预测y的数量变化。相关关系是指在一定范围内,一个变数的任一变量(如xi),虽然没有另一个变数的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,只要这种关系存在,我们就定义变数y和x有相关关系。相关模型中,没有自变数和依变数的区别,不具有预测特性,它仅表示两个变数的偕同变异。
    回归模型资料的统计方法叫回归分析,这一分析方法是要导出由x来预测或控制Y的回归方程,并确定当给自变数x为某一值时依变数y将会在什么范围内变化。相关模型资料的统计方法叫相关分析,这一分析是要测定两个变数在数量关系上的密切程度和性质。SAS系统的CORR过程能够计算两个变量间的相关系数,包括Pearson,Spearman,Hoeffding, Kendall等相关系数及其他一些统计量。

CORR过程格式
[*]PROC CORR;
[*]VAR 变量表;
[*]WITH 变量表;
[*]PARTIAL 变量表;
[*]WEIGHT 变量;
[*]FREQ 变量;
[*]BY 变量表;

复制代码
CORR过程语句说明
一、PROC CORR语句选择项
DATA=数据集 指明需处理的数据集名,缺省时为当前数据集。
OUTP=数据集 要求产生一个含有Pearson相关的一个新数据集。
OUTS=数据集 要求产生一个含有Spearman相关的一个新数据集。
OUTK=数据集 要求产生一个含有Kendall相关的一个新数据集。
OUTH=数据集 要求产生一个含有Hoeffding相关的一个新数据集。
PEARSON 计算通常的Pearson积矩相关,是缺省值。
SPEARMAN 计算Spearman等级相关系数
KENDALL 计算Kendallτ-b系数。
HOEFFDING 计算Hoeffding D统计量。
NOMISS 将带有某一变量缺失值的观察值从所有计算中除去。
VARDEF=DF|WGT|N|WDF 指定计算方差和协方差的分母。N观察值个数,DF自由度,WGT权重合,WDF权重合减1。
NOSIMPLE 抑制简单统计。
BEST=n 只输出每个变量与其他变量间最高的n个相关系数。
NOPRINT 抑制任何报表的输出。
NOCORR 在输出数据集中不包括相关系数。
NOPROB 不输出相关系数的显著性测验。
RANK 将每一变量与其他变量的相关系数按由大到小的顺序排列。
二、VAR语句
VAR 变量表
指明要计算相关分析的变量名,缺省时,计算所有数值型变量间相关系数。
三、WITH语句
WITH变量表 指明特别配对的变量名,与VAR语句配对使用,VAR语句列出相关矩阵上部出现的变量,WITH语句列出左侧出现的变量。
四、PARTIAL语句
PARTIAL变量表 指明求偏相关时的偏变量名,同时激活NOMISS选择项。

应用实例
例1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表1,试计算x和y的相关系数和决定系数。
表1 累积温和一代三化螟蛾盛发期的关系数据
X累积温        35.5        34.1        31.7        40.3        36.8       40.2        31.7        39.2        44.2
Y盛发期        12        16        9        2        7        3       13        9        -1
●        程序及说明
[*]
[*]   DATA new;
[*]    INPUT x y@@;
[*]  CARDS;
[*]     35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1
[*]PROC CORR;
[*]  VAR x y;
[*]RUN;

●        输出结果及说明
                                 Correlation Analysis相关分析
                          2 'VAR' Variables:  X        Y      
         Simple Statistics
简单统计
Variable      N         Mean      Std Dev          Sum      Minimum     Maximum
变量名      观察值个数 平均数    标准差          总和      最小数        最大数
X            9     37.07778      4.25199    333.70000     31.70000     44.20000
Y            9      7.77778      5.58520     70.00000     -1.00000     16.00000

       Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 9  
      PEARSON相关系数
                                          X                 Y
                        X           1.00000          -0.83714
                                    0.0               0.0049
                        Y          -0.83714           1.00000
                                    0.0049            0.0   
可见,x与y相关系数为-0.83714,概率为0.0049,达到极显著水平。
例2 测定13块中籼南京11号高产田的每亩穗数(x1,单位:万)、每穗粒数(x2)和每亩稻谷产量(y,单位:斤),得结果如表2。试分析每亩穗数、每穗粒数和亩产量间的相关。
表2 每亩穗数(x1)、每穗粒数(x2)与亩产量(y)
x1        x2        Y        x1        x2        Y        x1       x2        Y
26.7        73.4        1008        33.8        64.6        1103       31.5        61.1        1004
31.3        59.0        959        30.4        62.1        992       33.1        56.0        995
30.4        65.9        1051        27.0        71.4        945       34.0        59.8        1045
33.9        58.2        1022        33.3        64.5        1074                     
34.6        64.6        1097        30.4        64.1        1029                     
●        程序及说明
[*]
[*]   DATA new;
[*]   INPUT x1 x2 y;
[*]   Cards;
[*]      26.7    73.4    1008
[*]      31.3    59.0    959
[*]      30.4    65.9    1051
[*]      33.9    58.2    1022
[*]      34.6    64.6    1097
[*]      33.8    64.6    1103
[*]      30.4    62.1    992
[*]      27.0    71.4    945
[*]      33.3    64.5    1074
[*]      30.4    64.1    1029
[*]      31.5    61.1    1004
[*]      33.1    56.0    995
[*]      34.0    59.8    1045
[*]PROC CORR NOSIMPLE;
[*]  VAR x1 x2 y;
[*]RUN;


●        输出结果及说明
                                Correlation Analysis
                     3 'VAR' Variables: X1       X2       Y      
      Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
                                X1                X2             Y
              X1          1.00000          -0.71738          0.62939
                           0.0               0.0058            0.0212
              X2          -0.71738          1.00000          0.01347
                           0.0058            0.0               0.9652
              Y            0.62939          0.01347          1.00000
                           0.0212            0.9652          0.0   
由相关分析可知,x1和x2间的相关系数为-0.71738,达极显著水平(P=0.0058<0.01);x1和y的相关系数为0.62939,达显著水平(P=0.0212<0.05);x2和y的相关系数为0.01347,未达到显著水平(P=0.9652>0.05)。

樂淘淘 发表于 2015-11-29 09:02

好好好好好好好好

废材 发表于 2016-9-4 09:25

学习一下。。。

废材 发表于 2016-9-4 09:26

学习xuexi,,,
页: [1]
查看完整版本: SAS相关性分析(附带实例解析,特别有用)