查看: 2419|回复: 1

[建模教程] 灰色系统理论及其应用 (一) ：灰色系统概论、关联分析、与传统统计方法的比较

[复制链接]

字体大小: 正常放大

浅夏110

542 主题	15 听众	1万积分

TA的每日心情

	开心 2020-11-14 17:15

签到天数: 74 天

[LV.6]常住居民II

群组: 2019美赛冲刺课程

群组: 站长地区赛培训

群组: 2019考研数学桃子老师

群组: 2018教师培训（呼伦贝

群组: 2019考研数学站长系列

电梯直达

1^#

发表于 2020-5-27 09:58 |只看该作者 |倒序浏览

|招呼Ta 关注Ta |邮箱已经成功绑定

灰色系统是部分信息已知而部分信息未知的系统，常常采用离散模型，建立一个按时间逐段进行短期分析的模型。其中的关联度分析方法，即根据因素之间发展态势的相似或相异程度来衡量因素间关联的程度。此外的灰色模型GM和离散形式的灰色模型DGM也在博文中有介绍。

1 灰色系统概论
客观世界的很多实际问题，其内部的结构、参数以及特征并未全部被人们了解，人们不可能象研究白箱问题那样将其内部机理研究清楚，只能依据某种思维逻辑与推断来构造模型。对这类部分信息已知而部分信息未知的系统，我们称之为灰色系统。本章介绍的方法是从灰色系统的本征灰色出发，研究在信息大量缺乏或紊乱的情况下，如何对实际问题进行分析和解决。

客观世界在不断发展变化的同时，往往通过事物之间及因素之间相互制约、相互联系而构成一个整体，我们称之为系统。按事物内涵的不同，人们已建立了工程技术、社会系统、经济系统等。人们试图对各种系统所外露出的一些特征进行分析，从而弄清楚系统内部的运行机理。从信息的完备性与模型的构建上看，工程技术等系统具有较充足的信息量，其发展变化规律明显，定量描述较方便，结构与参数较具体，人们称之为白色系统；对另一类系统诸如社会系统、农业系统、生态系统等，人们无法建立客观的物理原型，其作用原理亦不明确，内部因素难以辨识或之间关系隐蔽，人们很难准确了解这类系统的行为特征，因此对其定量描述难度较大，带来建立模型的困难。这类系统内部特性部分已知的系统称之为灰色系统。一个系统的内部特性全部未知，则称之为黑色系统。

区别白色系统与灰色系统的重要标志是系统内各因素之间是否具有确定的关系。运动学中物体运动的速度、加速度与其所受到的外力有关，其关系可用牛顿定律以明确的定量来阐明，因此，物体的运动便是一个白色系统。

当然，白、灰、黑是相对于一定的认识层次而言的，因而具有相对性。某人有一天去他朋友家做客，发现当外面的汽车开过来时，他朋友家的狗就躲到屋角里瑟瑟发抖。他对此莫名其妙。但对他朋友来讲，狗的这种行为是可以理解的，因为他知道，狗在前不久曾被汽车撞伤过。显然，同样对于“狗的惧怕行为”，客人因不知内情而面临一个黑箱，而主人则面临一个灰箱。

作为实际问题，灰色系统在大千世界中是大量存在的，绝对的白色或黑色系统是很少的。随着人类认识的进步及对掌握现实世界的要求的升级，人们对社会、经济等问题的研究往往已不满足于定性分析。尽管当代科技日新月异，发展迅速，但人们对自然界的认识仍然是肤浅的。粮食作物的生产是一个实际的关系到人们吃饭的大问题，但同时，它又是一个抽象的灰色系统。肥料、种子、农药、气象、土壤、劳力、水利、耕作及政策等皆是影响生产的因素，但又难以确定影响生产的确定因素，更难确定这些因素与粮食产量的定量关系。人们只能在一定的假设条件（往往是一些经验及常识）下按照某种逻辑推理演绎而得到模型。这种模型并非是粮食作物生产问题在理论认识上的“翻版”，而只能看作是人们在认识上对实际问题的一种“反映” 或 “逼近”。

社会、经济、农业以及生态系统一般都会有不可忽略的“噪声”（即随机干扰）。现有的研究经常被“噪声”污染。受随机干扰侵蚀的系统理论主要立足于概率统计。通过统计规律、概率分布对事物的发展进行预测，对事物的处置进行决策。现有的系统分析的量化方法，大都是数理统计法如回归分析、方差分析、主成分分析等，回归分析是应用最广泛的一种办法。但回归分析要求大样本，只有通过大量的数据才能得到量化的规律，这对很多无法得到或一时缺乏数据的实际问题的解决带来困难。回归分析还要求样本有较好的分布规律，而很多实际情形并非如此。例如，我国建国以来经济方面有几次大起大落，难以满足样本有较规律的分布要求。因此，有了大量的数据也不一定能得到统计规律，甚至即使得到了统计规律，也并非任何情况都可以分析。另外，回归分析不能分析因素间动态的关联程度，即使是静态，其精度也不高，且常常出现反常现象。

灰色系统理论提出了一种新的分析方法—关联度分析方法，即根据因素之间发展态势的相似或相异程度来衡量因素间关联的程度，它揭示了事物动态关联的特征与程度。由于以发展态势为立足点，因此对样本量的多少没有过分的要求，也不需要典型的分布规律，计算量少到甚至可用手算，且不致出现关联度的量化结果与定性分析不一致的情况。这种方法已应用到农业经济、水利、宏观经济等各方面，都取得了较好的效果。

灰色系统理论建模的主要任务是根据具体灰色系统的行为特征数据，充分开发并利用不多的数据中的显信息和隐信息，寻找因素间或因素本身的数学关系。通常的办法是采用离散模型，建立一个按时间作逐段分析的模型。但是，离散模型只能对客观系统的发展做短期分析，适应不了从现在起做较长远的分析、规划、决策的要求。尽管连续系统的离散近似模型对许多工程应用来讲是有用的，但在某些研究领域中，人们却常常希望使用微分方程模型。事实上，微分方程的系统描述了我们所希望辨识的系统内部的物理或化学过程的本质。

灰色系统理论首先基于对客观系统的新的认识。尽管某些系统的信息不够充分，但作为系统必然是有特定功能和有序的，只是其内在规律并未充分外露。有些随机量、无规则的干扰成分以及杂乱无章的数据列，从灰色系统的观点看，并不认为是不可捉摸的。相反地，灰色系统理论将随机量看作是在一定范围内变化的灰色量，按适当的办法将原始数据进行处理，将灰色数变换为生成数，从生成数进而得到规律性较强的生成函数。例如，某些系统的数据经处理后呈现出指数规律，这是由于大多数系统都是广义的能量系统，而指数规律是能量变化的一种规律。灰色系统理论的量化基础是生成数，从而突破了概率统计的局限性，使其结果不再是过去依据大量数据得到的经验性的统计规律，而是现实性的生成律。这种使灰色系统变得尽量清晰明了的过程被称为白化。

目前，灰色系统理论已成功地应用于工程控制、经济管理、未来学研究、生态系统及复杂多变的农业系统中，并取得了可喜的成就。灰色系统理论有可能对社会、经济等抽象系统进行分析、建模、预测、决策和控制，它有可能成为人们认识客观系统改造客观系统的一个新型的理论工具。

2 关联分析
大千世界里的客观事物往往现象复杂，因素繁多。我们往往需要对系统进行因素分析，这些因素中哪些对系统来讲是主要的，哪些是次要的，哪些需要发展，哪些需要抑制，哪些是潜在的，哪些是明显的。一般来讲，这些都是我们极为关心的问题。事实上，因素间关联性如何、关联程度如何量化等问题是系统分析的关键和起点。因素分析的基本方法过去主要采取回归分析等办法。正如前一节指出的，回归分析的办法有很多欠缺，如要求大量数据、计算量大及可能出现反常情况等。为克服以上弊病，本节采用关联度分析的办法来做系统分析。

作为一个发展变化的系统，关联分析实际上是动态过程发展态势的量化比较分析。所谓发展态势比较，也就是系统各时期有关统计数据的几何关系的比较。

例如，某地区 1977～1983 年总收入与养猪、养兔收入资料见表 1。

                                    表1：收入数据
      1977  1978 1979 1980 1981 1982 1983
总收入 18 20 22 40 44 48 60
养猪 13 15 16 24 38 40 50
养兔 3 2 12 10 22 18 20
根据表 1，做曲线图 1。

由上图易看出，曲线 A 与曲线 B 发展趋势比较接近，而与曲线 C 相差较大，因此可以判断，该地区对总收入影响较直接的是养猪业，而不是养兔业。很显然，几何形状越接近，关联程度也就越大。当然，直观分析对于稍微复杂些的问题则显得难于进行。因此，需要给出一种计算方法来衡量因素间关联程度的大小。

2.1 关联系数的定义
定义2 选取参考数列

  其中k表示时刻。假设有  m 个比较数列

则称
为比较数列对参考数列

在k时刻的关联系数，  其中为分辨系数；

称（1）式中分别为两级最小差，、两级最大差。

一般来讲，分辨系数 ρ 越大，分辨率越大； ρ 越小，分辨率越小。

公式（1）中的不能区别因素关联是正关联还是负关联，可采取下述办法解决这个问题。记

则：

   【1】当，则和   为正关联；

   【2】当，则和  为负关联；

（1）式定义的关联系数是描述比较数列与参考数列在某时刻关联程度的一种指标，由于各个时刻都有一个关联数，因此信息显得过于分散，不便于比较，为此我们给出

2.2 关联度的定义

由（2）易看出，关联度是把各个时刻的关联系数集中为一个平均值，亦即把过于分散的信息集中处理。利用关联度这个概念，我们可以对各种问题进行因素分析。考虑下面的问题。

例 1 通过对某健将级女子铅球运动员的跟踪调查，获得其 1982 年至 1986 年每年最好成绩及 16 项专项素质和身体素质的时间序列资料，见表 2，试对此铅球运动员的专项成绩进行因素分析。

在利用（1）式及（2）式计算关联度之前，我们需对表 2 的各个数列做初始化处理。一般来讲，实际问题中的不同数列往往具有不同的量纲，而我们在计算关联系数时，要求量纲要相同。因此，需首先对各种数据进行无量纲化。另外，为了易于比较，要求所有数列有公共的交点。为了解决上述两个问题，我们对给定数列进行变换。【参考数据变换技术】

为原始数列 X 的初始化数列。

这样，我们可对表 2 中的 17 个数列进行初始化处理。注意，对于前 15 个数列，随着时间的增加，数值的增加意味着运动水平的进步，而对后 2 个数列来讲，随着时间的增加，数值（秒数）的减少却意味着运动水平的进步。因此，在对数列 15 x 及 16 x 进行初始化处理时，采取以下公式

依照问题的要求，我们自然选取铅球运动员专项成绩作为参考数列，将表 2 中的各个数列的初始化数列代入（1）及（2）式，易算出各数列的关联度如下表（这里 ρ = 0.5 ）。

计算的 MATLAB 程序如下：

clc,clear
load x.txt %把原始数据存放在纯文本文件 x.txt 中
for i=1:15
x(i,