查看: 2160|回复: 0

第十届研究生数学建模竞赛--问题分析写法

[复制链接]

字体大小: 正常放大

杨利霞

5273 主题	82 听众	17万积分

TA的每日心情

	开心 2021-8-11 17:59

签到天数: 17 天

[LV.4]偶尔看看III

网络挑战赛参赛者

自我介绍: 本人女，毕业于内蒙古科技大学，担任文职专业，毕业专业英语。

群组: 2018美赛大象算法课程

群组: 2018美赛护航培训课程

群组: 2019年数学中国站长建

群组: 2019年数据分析师课程

群组: 2018年大象老师国赛优

电梯直达

1^#

发表于 2019-9-25 11:30 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

第十届研究生数学建模竞赛--问题分析写法

第十届研究生数学建模竞赛—新解读

之问题分析

问题分析可以理清思路，使论文有框架结构

洛伦兹曲线及基尼系数计算

关于收入差距的测度问题，是美国统计学家洛伦兹（Lorenz. M, 1905）[ 1 ] 在其论文《财富集中度的测量方法》中最先提出的，即洛伦兹曲线。洛伦兹曲线把分析结果用一个简单明了的直角坐标图形表示出来，从曲线上可以直观地看出每个阶层的收入比重，从曲线的弯曲度可以观察到各个阶层的收入差别情况，通过对比不同的曲线了解不同国度总收入分配差别程度或同一国家不同时

期的收入差别变动情况。离 45 度线越远、离 90 度线越近的曲线表示的收入差别程度越大。洛伦兹曲线作为一种分析收入分配不平等的方法，是国际上用来衡量一个国家或地区经济部门专门化（集中化）程度及国民收入分配不平等（贫富分化）程度的坐标图形，具有一定的趋势性。

收入分配的洛伦兹曲线 L ( p )在收入分配分析中具有重要地位，L( p )表示

人口份额等于 p 的低收入端拥有的总收入份额，因此 L ( p )是定义在区间(0, 1)

上的函数，按经济意义，有效的洛伦兹曲线必须具有以下特征：

（1） L	(	0	)		( )			[size=12.0000pt]=1
（1） L		0			= 0, L 1			[size=12.0000pt]=1
	(			)	[size=12.0000pt]3 0, L[size=12.0000pt]￠	(			)	[size=12.0000pt]3 0, L￠￠	(		)	(	)
（2） L		p			[size=12.0000pt]3 0, L[size=12.0000pt]￠		p			[size=12.0000pt]3 0, L￠￠		p		3 0; p Î	0, 1

条件（1）是边界条件，即 0%的人口拥有 0%的收入，100%的人口拥有 100% 的收入。

条件（2）表示洛伦兹曲线是非负的单调递增的凸函数。L ( p) 3 0 因为收入

不能是负额；L ( p ) 是 p 的增函数，即有 L￠ ( p) 3 0 ，因为所考虑的低收入端人

口份额 p 越大，该群体拥有的总收入份额应越大；L ( p ) 是凸函数，即满足

L￠￠( p) 3 0 。因为 p 增加到 p + Dp 时，人口份额所代表的是收入更高的群体，因

此 p 增加时，L ( p )应以更大比例增加。如果对于任何 p Î(0, 1)都有 L ( p ) = p，

则此洛伦兹曲线是所谓平等收入线。对于任何洛伦兹曲线 L ( p )，基尼系数定义为 L ( p )与平等收入线之间面积的 2 倍。

关于洛伦兹曲线与基尼系数的分析与测算，目前方法主要有三种：几何计算法[ 2 ]、分布函数法[ 2 ] 和曲线拟合法。

几何计算法

几何计算法是根据分组数据描述洛伦兹曲线，按几何图形分块计算基尼系数是根据分组数据刻画洛伦兹曲线与对角线之间的面积。

L file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml5788\wps1.png

file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml5788\wps2.png

(1, 1)

A

B

(0, 0)

file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml5788\wps3.pngp

图 1 几何计算法计算基尼系数

作为洛伦兹曲线拟合的“副产品”，基尼系数可很容易地计算出来。按几何

- 6 -

图形分块计算基尼系数（见图 1），可以表示为：

G [size=12.0000pt]=	A	[size=12.0000pt]=	A	[size=12.0000pt]= 2A
	A + B		A + 0.5 - A

然而，几何计算法计算精度较差，是一种相对比较粗糙的算法。

分布函数法

分布函数法是基于对指标的概率密度函数或概率分布函数的假设，估计其分布参数，然后对洛伦兹曲线与基尼系数进行估计。McDonald[ 2 ]在总结已有的各类分布函数的基础上，进行统一并提出了广义的贝塔分布函数（GB）和幂函

数形式的广义贝塔分布函数（EGB）, 通过实证分析说明可以用于描述居民收入分布、金融有关变量的分布以及在回归分析方面的应用。成邦文[ 3 ]主要研究了在对数正态分布情况下洛伦兹曲线的性质、特征以及基尼系数的测算方法。黄恒君[ 4 ]通过收入分布函数序列为例，研究了位置—尺度分布族的近似构造。然而，由于分析的复杂性，到目前为止，很少见到根据指标的分布函数直接推导与分析洛伦兹曲线与基尼系数的研究与分析的论文。

曲线拟合法

曲线拟合法首先假设收入分配服从某一特殊的统计分布函数形式, 如对数

正态分布、伽马分布、贝塔分布、帕累托分布、威布尔分布等, 再据此为洛伦

兹曲线选择适当的参数方程直接进行拟合、确定参数, 由此估计出洛伦兹曲线与基尼系数。

目前有很多拟合方法 (例如多项式、样条函数逼近、洛伦兹曲线模型)来确定洛伦兹曲线。Kakwani[ 5 ]早在 1980 年就曾利用广义二次函数来拟合洛伦兹曲线；庄康、张永光[ 6 ]采用多项式函数形式拟合洛伦兹曲线，并按照 20%、60%、20%收入群体比率，将基尼系数分解到各收入群体中；陈孝新[ 7 ]推导出洛伦兹

曲线的三次分段多项式样条函数拟合的表达式，并通过样条回归确定系数。

实践证明使用洛伦兹曲线模型是比较理想的方法之一。

关于洛伦兹曲线模型，国外经济理论学界已经做了大量工作，发现了一系

列洛伦兹曲线模型, 用于拟合产生近似的洛伦兹曲线。这种模型都是含有一个

或几个参数的函数关系式或经验公式，结合相关文献，我们在表 1 里归纳总结

出 15 个模型。但有些模型用于逼近洛伦兹曲线时有一个共同的缺点，即它们不能完全满足洛伦兹曲线的定义，这不会影响基尼系数的估算精度，但在其他经

济应用（如贫困评估）时往往会产生问题（如 Kakwani[ 5 ]1980 年提出的广义二次函数拟合洛伦兹曲线模型）。另外，Cheong[ 8 ]指出，有些洛伦兹模型还有一个缺点，即其估计值超出了 Gastwirth[ 9 ]用非参数方法给出的基于分组数据计算所得基尼指数的上下限，它们一般会低估或者高估基尼系数。最近的研究都关

- 7 -

注于寻找同时满足理论与实际的新的洛伦兹模型，使得这些模型不仅能满足洛伦兹曲线的定义，而且应用于各种数据源时均呈现良好的性质，在模型的改进和优化方面，Ogwang 和 Rao[ 10 ] 以及我国的王祖祥教授[ 11 ]做了大量工作。

表 1 十五种洛伦兹曲线

file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml5788\wps4.png

模型 洛伦兹曲线 参数取值范围

Kakwani,

Podder

Rasche

Chotikapanich

Kakwani

Wang,

Smyth

Gupta

Sarabia

Ortega

Ogwang,

Rao

Lognormal

Pakes

Basmann

Schader,

Schmid

Sarabia

L ( p ) = pa ×e- b (1- p)

file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml5788\wps5.png

b

L ( p ) = éë1 - (1- p)a ùû

L ( p) = el p -1

file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml5788\wps6.png

l el -1

L ( p ) = p - apa (1- p)b

[size=12.0000pt]æ el[size=9.0000pt](1[size=7.0000pt]- p[size=9.0000pt]) [size=24.0000pt]-1 [size=12.0000pt]öb
L ( p) = 1 -		[size=12.0000pt]÷
L ( p) = 1 -	el -1
ç	el -1
è		ø

L ( p ) = p ×a p-1

L ( p ) = 1 - (1- p)b

L ( p ) = pa éë1 - (1- p)b ùû

L [size=15.5000pt]( p [size=15.5000pt]) [size=12.0000pt]= d p a	[size=24.0000pt]ë[size=24.0000pt]é1 [size=12.0000pt]- [size=15.5000pt](1[size=12.0000pt]- p[size=15.5000pt])	b	[size=24.0000pt]û[size=24.0000pt]ù [size=12.0000pt]+ [size=15.5000pt](1[size=12.0000pt]-d [size=15.5000pt])	el p -1
				el -1

L ( p ) = F ( F -1 ( p)-s )

L ( p ) = I p (d , h)

L ( p ) = p ap +be- g (1- p 2 )- h (1- p)

L ( p ) = p g - apa (1- p)b

( ) æ el p -1 öu

L p = pa ç ÷

file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml5788\wps7.png

è el -1 ø

1 < a < 2, b > 0

0 < a ￡ 1, b 31

l > 0

a > 0, 0 < a ￡ 1, 0 < b ￡1

[size=12.5000pt](		[size=12.5000pt])	[size=12.5000pt](	û
l [size=12.0000pt]Î	-￥, 0		[size=12.0000pt]è	0, ln b -1 ù

0 < b ￡1

a > 0

0 < b ￡1

a 3 0, 0 < b ￡1

l > 0, 0 < d ￡1 a 3 0, 0 < b ￡1

s > 0

d 3 1, 0 < h ￡1 a, b, g , h (1) a,g , a , b (1)

l > 0, a > 0, u 31

	[size=12.0000pt]é		b			el p [size=12.0000pt]-1[size=12.0000pt]ùh				l [size=12.0000pt]> 0, 0 [size=12.0000pt]￡ d [size=12.0000pt]￡1
Wang	L ( p ) = êd (1	- (1 - p)		)+ (1	-d )				ú	h [size=12.0000pt]3 1, 0 [size=12.0000pt]< b [size=12.0000pt]￡1
Wang	L ( p ) = êd (1	- (1 - p)		)+ (1	-d )	e	l	-1	ú
	ë					e		-1	û

file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml5788\wps8.png

(1): 模型中参数的取值范围未确定

- 8 -

2.2 中等收入概念及界定方法研究

中等收入是一个抽象而又具体的概念。说它抽象，是因为每个人都可以对其给出自己的理解；说它具体，是因为一旦给出自己的理解，每个人都可以据此找到自己的位置。

关于中等收入阶层和人口的评定标准, 国内外已开展了大量的研究。目前,大多数国家对中等收入阶层的界定尚停留在定性的阶段。一些发达国家如美国等，已经尝试采用定量的方法，包括选用一些数量指标，但总体上还处于摸索阶段,对于中等收入的定量界定虽然还没有一个十分成熟的方法。

题目中提到了“收入空间法”、“人口空间法”，但它们具有任意性和与经济直观不符合的缺点，除了这两种方法之外，通过阅读相关文献，我们还总结出另外四种界定中等收入阶层和人口的方法。

五分法或中收系数法

五分法即把全部家庭户或人口分为最低收入、次低收入、中等收入、较高

收入和最高收入五个组，每组各占家庭户或人口总数的 20%。可以把中间三组的收入份额之和与整体收入份额之比称为中收系数，以此从一个侧面反映中等收入者比重现状，中收系数愈高，说明收入愈向中间集中，居民的收入差异较小, 中等收入群体的比重愈大。这里需要说明的是,中收系数不等于中等收入者的实际比重，因为中等收入者本身就是一个相对的概念，目前还没有一个统一的标准，因此只有用按人口计算处于中间收入阶层的收入占总收入的比重来衡量。

五分法或中收系数法的一个最大好处是资料容易获得，可以很方便地揭示一个地区中等收入人群的成长过程。但一个致命的缺点是很难据以推算中等收入的确切水平和比重。

固定比例法

为了界定的方便，固定比例法也被经常用于中等收入界限的确定，即考虑

收入落在中位收入 m 的一个范围内的人口为中等收入人口。如根据美国 1999 年人口普查结果，取全美家庭年收入中值 40800 美元的 80%和 120%为下限和上限。这样计算的结果把中产阶级的家庭年收入范围定在 33000 美元到 49000 美元这个收入区间之间。目前, 西方国家普遍进入富裕国家行列之后, 普遍改为按固定比例界定中等收入。

固定比例法的优点是简单, 但是科学性不够,且具有很强的任意性。以一个固定的比例来确定中等收入群体的范围，难以反映中等收入群体不断成长的历程。

- 9 -

恩格尔系数法

隐性收入的大量存在是造成收入指标失真的主要原因,在这种情况下, 选择职业地位和收入水平作为社会分层的主要指标,就有很大的局限性。据此,可以选择更容易准确测定的消费指标作为社会分层的依据,因为瞒报和虚报消费的可能性远比瞒报和虚报收入的可能性小得多。我们将国际上通行的衡量消费

水平的恩格尔系数作为消费分层的划分依据(见表 2) , 即可以确定一个合适的恩格尔系数区间所对应的收入水平作为中等收入的水平。恩格尔系数被更广泛地应用于测量一个家庭的贫困或富裕程度,这种方法的优点是可以忽略社会调查中人们对实际收入的瞒报和虚报行为。

	表 2	恩格尔系数与生活水平

	恩格尔系数	生活水平

	0.3 以下	最富裕阶段
	0.3—0.4	富裕阶段
	0.4—0.5	小康阶段
	0.5—0.6	勉强度日阶段
	0.6 以上	绝对贫困阶段

资料来源：何明升、唐魁玉《中国消费之谜》（1989）

主观评价法

就社会分层理论及方法而言，历来都有客观分层与主观分层之说。主观分层，是指对社会成员地位归属，采用主观自我评价和他人认定的方式所获得的分层结果, 其主要依据是被调查者主观评价(包括自己的和他人的评价、认定)。在对中等收入者的界定和认识上，主观分层的方法更具有重要意义。因为是通过广泛的征求意见基础上形成的结果。

主观评价法的优点是社会公认性强，受人质疑的可能性较小。但主观评价法的缺点是被调查者往往对中等收入者的内涵不了解, 导致科学性降低。

综上，我们需要综合比较分析这些方法的优缺点，改进中等收入人口界定方法。

2.3 本文拟完成的工作

通过对问题的重述、题目要求的理解，我们阅读相关文献，进一步了解了相关问题的国内外研究现状并进行了比较分析，我们总结在本文我们需要完成的工作如下：

工作 1：基于文献[11]的相关理论与方法，构造一个新的洛伦兹曲线模型，证明其满足洛伦兹曲线特征且符合经济规律。运用最小二乘法对其进行参数估

- 10 -

计，并将新模型与其他模型进行拟合精度比较。

工作 2：现有的大多数中等收人界定方法普遍存在确定范围随意、不能反映经济直观等缺陷，本文的工作立足于改进现有的中等收入界定方法，可以通过合理的分析与计算得到中等收入人口的范围，并反映出收入分配的特征。

工作 3：提出一种符合经济直观，易被社会群体主观接受的中等收入人口模型。