- 在线时间
- 5 小时
- 最后登录
- 2012-9-9
- 注册时间
- 2012-8-19
- 听众数
- 5
- 收听数
- 0
- 能力
- 0 分
- 体力
- 70 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 24
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 8
- 主题
- 4
- 精华
- 0
- 分享
- 0
- 好友
- 7
升级   20% TA的每日心情 | 难过 2012-9-7 00:05 |
---|
签到天数: 2 天 [LV.1]初来乍到
- 自我介绍
- 我们需要更多的交流,更多的帮助!
 |
实验目的
本次试验应掌握随机变量的分布函数命令,能计算概率并做出密度曲线,对于实验得到的数据能进行初步的统计分析,掌握大样本数据的处理方法,会画出直方图并熟悉概率纸检验方法。
实验内容及要求
随机变量与分布
在MATLAB 统计工具箱中有以下随机变量的密度函数与分布函数,如表1.12所示
随机变量名称 MATLAB密度函数 随机变量名称 MATLAB密度函数
Beta分布 Bedapdf 标准正态分布 normpdf
二项分布 Binopdf 泊松分布 poisspdf
卡方分布 Chi2pdf 瑞利分布 raylpdf
指数分布 Exppdf T分布 tpd
F分布 Fpdf 均匀分布 unifpdf
伽马分布 Gampdf Weibull 分布 weibpdf
几何分布 Geopdf 非中心F分布 ncfpd
超几何分布 Hygepdf 非中心T分布 nctpd
对数正态分布 Lognpdf 非中心卡方分布 ncx2pdf
一般分布的密度 pdf
如果将上述命令中的后缀pdt分别改为cdf,inv,rnd,stat就是得到相应的随机变量的分布函数,分位数,随机数的生成以及均值与方差。
由于正态分布是是实际中最常用的分布,我们以此为例说明如何利用MATLAB中的函数来计算正态分布的分布函数、概率密度函数值、做出密度函数曲线、求出分位数的功能,其他分布的计算方法基本相同,我们留作实验。
已知X~,试求:
(1)P{0<X<1} , P{X≤3} ; (2) P{X≤}=0.6827 , =________.
(2) 做出[-2.5 ,3.5 ]上的概率密度函数曲线;
解: p=normcdf 用于计算P{X≤}.
P{0<X<1} =normcdf (1,2,0.5)-normcdf(0,2,0.5)=0.0227
P{X≤3}= normcdf (3,2,0.5)=0.9772
计算正态分布的分位数利用:
= normcdfv
= normcdfv(0.6827,2,0.5)=2.23763116875765
函数p=normspec 用于做出在区间[a,b]上的正态密度函数曲线:
p=normspec([-2.5,3.5],2,0.5)
图表 1.38 [-2.5,3.5] 上的概率密度曲线
数据特征
设X1, X2 ,…,Xn, 是取自总体X的一个简单随机样本,在n次抽样以后得到样本的一组观测值x1, x2,… ,xn的分析研究得到总体X的有关信息,在MATLAB中有专门的函数分析数据特征,如表1.13所示.
表1.13 函数
位置特征 MATLAB函数 变异特征 MATLAB函数
算术平均 mean 极差 range
中位数 median 方差 var
切尾平均 trimmean 标准差 std
几何平均 geomean 四分位极差 iqr
调和平均 harmmean 平均绝对偏差 mad
【例1.111】 已知数据:459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 649 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 482 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851
计算其数据特征:
解:
>> a=[459,362,…,310,851];
>> b=a( ;men(b),median(b,10),geomean(b,10),harmmean(b),
range(b),var(b),std(b),iqr(b),mad(b)
注意:切尾平均有两个输入,后者为百分数。
结果如表1.14所示。
表1.14结果
位置特征 计算结果 变异特征 计算结果
算术平均 600 极差 1069
中位数 599.5 方差 38663.03
切尾平均 600.64 标准差 196.629
几何平均 559.68 四分位极差 243.5
调和平均 499.06 平均绝对偏差 150.86
【例1.121】 已知数据:1,1,1,1,1,1,100;计算其数据特征,由此你有何发现?
解:
>> x=[1,1,1,1,1,1,100];
>>y=[men(x),median(x),geomean(x),harmmean(x),trimmean(x,25);
range(x),var(x),std(x),iqr(x) mad(x)]
计算结果为:
y=
15.143 1 1.9307 1.1647 1 99 1400.1 37.418 0 24.245
如果例1.112的数据全部为1,则各种平均值都应等于1,所有的变异特征全部为零,由于有一个异常值100,于是导致上述的一些特征受影响(不稳健),但是中位数、切尾平均与四分位极差没有改变,它们对异常值是稳健的。
3.异常值的判别
在探索性数据分析时,有一种判别异常值的简单方法,首先计算数据的下、上截断点:
数据中小于下截断点的数据为特小值,大于上截断点的数据为特大值,二者都是异常值。
其中,为四分位极差,分别称为下四分位数和上四分位数,对于,和样本容量为的样本,其次序统计量记为:。
于是计算样本的P分位数的公式为:
显然
【例1.113】 计算1.111中下、上四分位数以及四分位数极差R,判断有无异常值。
解:由得到原数据从小到大的次序统计量,因为为整数,故有:
,,
于是,,由此可知,80,120,1153是异常值。 |
zan
|