第十届华为杯全国研究生数学建模竞赛分析2 % J" X' I( a8 q
( N# A! B6 _/ L5 j. R+ P/ r, o( Q6 c5 I
第十届华为杯全国研究生数学建模竞赛分析 详述 4.1.1 Lorentz 曲线的拟合研究 L ( p) 表示按收入顺序排序后,分位数为 p 之前的人所有收入占总收入的比 | | ò0x tf (t )dt , p = F (x) 。 L ( p) 称为收入分配的 Lorentz 曲线。 | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 下面先推导 Lorentz 曲线 L ( p) 的一些基本性质: | | | | | L '( p ) [size=12.0000pt]= | | ([size=18.0000pt]ò0x tf (t )dt ) | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | L ''( p) [size=12.0000pt]= | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 5 y8 H, t4 P) d/ y/ K0 D2 o
/ T: ?4 C+ |; [9 t/ w 所以得到三条很重要的性质,它建立了分位数 p ,收入 x ,以及分布,密度 函数之间联系: (1) p = F ( x) 下文会经常用到这些性质。 由(2)(3)易知 L '( p ) 3 0, L ''( p) 3 0 ,所以 Lorentz 曲线是一个定义在[0,1] 上, 递增凸函数,并且 L(0) = 0, L(1) =1. 一旦知道了 Lorentz 曲线,那么通过(1)(2) (3)可以完全确定密度函数,从而确定整个分布。所以理论上知道了 Lorentz 曲线就知道了所有信息,而且它是一个递增凸函数,在数学上有一些好性质,所 以人们偏向于用 Lorentz 曲线来研究. 4.1.2 10 种模型提出 关于 Lorentz 曲线的研究已经有许多工作了,也有各种各样的曲线用来估计, 下面列举十种参考文献提出的模型: 1、参考文献[1]提出模型: L( p ) = pa eb ( p-1) , a > 0, b > 0 1 2、参考文献[2]提出模型: L ( p ) = [1 - (1 - p)a ] b , a > 0, 0 < b £1. file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml14040\wps1.png 3、 参考文献[3]提出模型: L( p ) = pA p -1, A > 0 4、参考文献[4]提出模型: L( p ) = p - Apa (1 - p)b 5、参考文献[5]提出模型: L( p ) = pa [1 - (1 - p) b ], a 3 0, 0 < b £1. 6、参考文献[6]提出模型: L( p ) = pa [1 - (1 - p) b ]h , a 3 0, 0 < b £ 1,h 31. 5
' l" @; Y$ V8 ?2 I! M3 G# }) _( R0 D2 W/ E6 s7 R
7、参考文献[7]提出模型: L ( p ) = p bb--1p , b >1 file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml14040\wps2.png 8、参考文献[8]提出模型: L ( p) = el p -1 , l > 0. file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml14040\wps3.png el -1 9、参考文献[9] 提出模型 L( p ) = pa + g [1 - a (1 - p ) b ]g , 0 £ a £ 1, a 3 0, 0 < b £ 1, g 31. 10、参考文献[10]提出模型: L ( p) = t | | , w1 [size=12.0000pt]< 1, w2 | | | | | | | | | | | | | | | |
4.1.3 各种模型的比较 下面来介绍一下我们的工作,我们通过观察散点图,觉得应该至少包含一个 幂次函数,于是猜测 L ( p ) = pa ,当对幂次函数进行最小二乘拟合时发现图像是: file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml14040\wps4.png 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 前一部分的点在曲线上方,后一部分的点在曲线下方;所以需要乘上一个函 数进行修正。我们通过观察散点图发现当 p ®1时,曲线的斜率趋向于很大的数。 6
9 i& m. ?1 t3 ~; M: P& Q9 J* B
d" |& {$ @/ a# r- l2 Gfile:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml14040\wps5.png 于是大胆猜测是一条开口向左的抛物线,其方程为:x + (1 - y ) 2 = 1 T y = 1 - file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml14040\wps6.pngfile:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml14040\wps7.png1- x 因此猜测 L( p ) = pa (1 - (1 - p) b ) ,当然a , b 的范围待定,先假设非负。下面看a , b 的范围为什么时它是一个凸函数: L '( p ) = a pa -1 (1 - (1 - p ) b ) + b pa (1 - p) b -1 3 0 显然; L ''( p ) = a (a - 1) pa - 2 (1- (1- p ) b ) + 2ab p a -1 (1- p ) b -1 + b (1- b) p a (1- p)b -2 = pa - 2 (1- p ) b - 2 [a (a - 1)((1- p ) 2 -b - (1- p ) 2 ) + 2ab p (1- p ) + b (1- b) p2 ] 所以,为了使得 L ''( p) 3 0 ,仅需要求: a (a - 1)((1 - p) 2 -b - (1 - p) 2 ) + 2ab p(1 - p) + b (1 - b) p2 3 0 取 p = 1 T b (1 - b ) 3 0 T 0 £ b £1 如果 b = 0 T L( p) = 0 不可以,所以 0 < b £1 下面证明当a 3 0, 0 < b £1时, L( p ) = pa (1 - (1 - p) b ) 确实为递增凸函数。此时需 要证明: a (a - 1)((1 - p) 2 -b - (1 - p) 2 ) + 2ab p(1 - p) + b (1 - b) p2 3 0 当 a 31时,因为 (1 - p ) 2 -b - (1 - p) 2 > 0 ,所以上式显然成立; 当 0 £ a < 1, 0 < b £1时;为证 a (a - 1)((1 - p) 2 -b - (1 - p) 2 ) + 2ab p(1 - p) + b (1 - b) p2 3 0 仅需令 x = 1 - p ,化为一个 x 的一元函数,可以用微分法证明它在[0,1] 上大 于等于 0.(具体过程比较繁琐,此处略去) 我们构造的模型为 L( p ) = pa (1 - (1 - p) b ) a 3 0, 0 < b £1(4) 以及 L( p ) = pa (1 - (1 - p) b )g , a 3 1, 0 < b < 1, g > 0. (5) 同样的道理,可以证明 L( p ) = pa (1 - (1 - p) b )g , a 3 1, 0 < b < 1, g > 0. 为递增凸 函数,且满足问题中的(9)。 让我们既欢喜又担忧的是当我们查阅参考文献时,发现此模型(4)已经被 参考文献文献[11]研究过: 7
! V: z/ H" a2 Z0 a# K: B
! x3 {& E& ]/ E 于是我们推广了(4)得到(5),(5)的特殊形式也被研究过,例如文献[12], 但此文献中要求 g 31,我们模型不需要这个假定,仅需假定 g > 0 ,但我们要求 a 31,但在实际问题中,这个要求并不十分过分,因为考虑Lorentz曲线时,如果用单幂函数拟合,那么 L ( p ) = pa 必须要求a 31。 我们通过(5),可以相当精确地拟合所给的数据点, file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml14040\wps8.png L( p ) = p1.391 (1 - (1 - p) 0.5186 )0.4786 MSE = 3.1867e-006;MAE = 0.0015;MAS = 0.0036 由此可见,用函数族(5)拟合 Lorentz 曲线是相当精确的,最大绝对误差 在千分之三,平均绝对误差为千分之一点五。
4 V G `$ U/ c
" f: @" e- X ?4 v2 Z |