在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 558594 点 威望 12 点 阅读权限 255 积分 172951 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 18 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
多项式函数拟合sin函数(最小二乘法求解参数及其正则化)
$ I O' K B* E; _/ f
) W$ x1 k4 b) Q N/ o% C! X6 Y0 ^ 1.统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习、非监督学习、半监督学习和强化学习。. n" d5 N, o* C0 K; @* V3 n( a
2.统计学习方法三要素——模型、策略、算法,对理解统计学习方法起到提纲挈领的作用。8 a! M" ]9 Y) f) }3 [0 J: j
3.本书主要讨论监督学习,监督学习可以概括如下:从给定有限的训练数据出发, 假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。
/ d3 ?% ]5 K+ g 4.统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差,就可能产生过拟合现象。模型选择的方法有正则化与交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。! n1 _& _3 i# ~
5.分类问题、标注问题和回归问题都是监督学习的重要问题。本书中介绍的统计学习方法包括感知机、K近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM 算法、隐马尔可夫模型和条件随机场。这些方法是主要的分类、标注以及回归方法。它们又可以归类为生成方法与判别方法。- {$ Y; Q" a! N$ n0 H) `
3 Z" f, c$ p: a
& V1 D; D8 F' H
6 _. a7 H' d4 ?9 a; t
( b2 O/ _' y4 S8 |
5 y! y$ }+ @# V3 Q/ d
import numpy as np
0 s+ c: _8 D8 A5 m+ m import matplotlib.pyplot as plt
3 d5 E" n7 o ^7 D& a; a7 \5 @+ A$ T$ S5 b from scipy.optimize import leastsq
# ?; I* n+ u5 `! Q @& Z% o' b4 W 1 b ?* @. d, }/ S# F0 z% k& ?
1 I2 d( M$ ]- p # 我们要拟合的目标函数8 K, ^6 `! {- c s3 e3 M8 i. p
def real_func(x):3 N" s% t3 H3 Y. D1 R. `
return np.sin(2*np.pi*x)" A1 N. e- c) e
: j# b% u. @7 z0 J: b
5 D$ y+ k- {4 d3 ~/ W # 我们自己定义的多项式函数8 J& I8 Y7 z) x/ R9 J5 ~
def fit_func(p, x):
7 N5 L- q, b# B- b% j$ S f = np.poly1d(p) # np.poly1d([2,3,5,7])返回的是函数,2x3 + 3x2 + 5x + 7
' t' P7 a( T2 c3 X4 u ret = f(x)
9 S+ N2 K$ a! z return ret
' p# n1 }3 G: v' V ; r! s! w2 ~4 V9 v8 V1 f0 t) b
7 P7 C6 _4 C9 V
# 计算残差5 X3 m3 C: D& @9 ^& _! n
def residuals_func(p, x, y):" n5 s' [9 B+ S2 n' U9 ?; f
ret = fit_func(p, x) - y" R" e- E& m* r
return ret/ \+ _# I7 i" S7 w( R- }& d
U& \1 F5 Y$ B7 f - v' a: S( h6 J* A
def fitting(M=0): r; y0 r9 y, Z
"""
5 U T' k2 K% z3 N0 W4 }+ I# V M 为 多项式的次数
0 w2 R: P( c: f """" p# E" V; d: e% X) w5 Z2 y4 Q
# 随机初始化多项式参数
' \/ H: P1 x F% p/ j8 F0 V6 n* |5 V p_init = np.random.rand(M + 1) # 返回M+1个随机数作为多项式的参数
5 N! c6 Y2 b* g+ H # 最小二乘法:具体函数的用法参见我的博客:残差函数,残差函数中参数一,其他的参数
$ _+ S. l6 L# w2 Y p_lsq = leastsq(residuals_func, p_init, args=(x, y))
9 p6 b4 ]; P, g6 |. V: o1 T # 求解出来的是多项式当中的参数,就是最小二乘法中拟合曲线的系数
) s. j/ Q- _9 T # print('Fitting Parameters:', p_lsq[0]); ^: D% n3 I$ R: ^4 L8 A9 C7 A
return p_lsq[0]
% u% Q" n, }4 v+ X3 x5 S 6 L& l( K2 B# v& t: m4 f
; k+ a# [& H% y9 I4 w. Q1 y # 书中10个点,对y加上了正态分布的残差8 C V" Z8 h4 ~/ k0 l
x = np.linspace(0, 1, 10). W( ^, v/ L0 R0 k7 M
y_old = real_func(x)/ f' g6 j7 ?5 Y
y = [np.random.normal(0, 0.1) + yi for yi in y_old]; a. J+ a7 ]2 D5 E4 @+ k4 [* C; n
* I5 Z, B0 V) s) E
* ~* w% G8 ]6 T/ f x_real = np.linspace(0, 1, 1000)
2 y0 F# p" l9 r$ @* R& x) L y_real = real_func(x_real)
. K# ?- s& k8 C& u2 F% K( Z1 e / M4 {# d9 k( i2 I3 i3 y
% `9 m% {% {) g8 l/ O plt.plot(x_real, y_real, label="real")
* z0 x# P* s- V( }: Q plt.plot(x, y, 'bo', label='point')
/ |; X+ L: W- i2 q" { # fiitting函数中args=(x, y)是条用的是上面定义的10个点的全局变量x,y
2 Y$ k5 i9 I8 K% ~ plt.plot(x_real, fit_func(fitting(9), x_real), label="fitted curve")
# d3 Q7 S, V( P0 X% G plt.legend()
; ]% _2 o$ s# A) q* @/ W" r plt.show()
1 I8 |" R1 B& W! y
& S L+ ~7 k5 s8 b M=0
, A! J) ~9 j" y8 c 5 R1 i& K7 _# X: u6 \. s1 ? I; E% w0 o
) z9 M3 L% |- \$ @
M=1 ' N" V( u/ M1 G5 A7 c
) |" R! D# t* E2 t. z$ D/ i
M=3 8 y* ?3 R% G% ~7 I# F2 u
9 F6 ~# {' ]$ p: W, }; c! x
* E+ \0 Q2 Y( T: S' x
1 Y. C8 v3 P" q7 F: y M=9 3 M4 }/ `) X. r1 c4 ?7 s
1 w, f S/ u+ K J7 z$ F& O% g1 `
% j% C, q8 L6 |+ U8 ~
% q/ P) z! ]( K! |0 ?3 _& R, I W是参数,就是最小二乘法求得到的系数 . |# Z$ C0 s! F7 t; u
lambda是regularization,是自定义的系数。 0 J. B/ Y d3 m: `7 r
import numpy as np
5 X9 L2 }/ v- S [0 X |/ R import matplotlib.pyplot as plt) ?7 e; z6 s1 D0 }7 G* L; `9 B$ z
from scipy.optimize import leastsq9 X* U8 P; _* z! f* W' d
9 K5 ~& I& _% f$ a; \( k6 k# I
3 y4 S( K* R& h% n% F: s # 我们要拟合的目标函数
$ ?7 I$ ^. j1 a. \8 H4 B8 U def real_func(x):
" y4 K: r+ O5 D5 D' x3 F5 X return np.sin(2*np.pi*x)
/ H! ?% W' F+ G4 a; n ( o' b6 U! l ^! l
: G+ S8 P( ~! ~, e! X. G& i" M, H
# 我们自己定义的多项式函数7 m5 }4 Y, ~& I: A% g# F
def fit_func(p, x):
$ H3 I2 R$ g5 o: H/ e# _ f = np.poly1d(p) # np.poly1d([2,3,5,7])返回的是函数,2x3 + 3x2 + 5x + 7( L3 A8 |0 G+ R) [# G: t
ret = f(x) n3 h! M/ {+ x1 x+ O. Q: a2 a
return ret
4 S4 S1 O: h/ `/ v( p) x
# n. m( D' p; z2 B2 M5 d' Q 2 E/ D) i: U- k% t3 @; f2 q# q; ~' _
# 计算残差# F6 Q+ L( @" M1 Q
def residuals_func(p, x, y):5 C2 x- K+ s6 b# A" `
ret = fit_func(p, x) - y
$ v& G$ O/ ?; Y# t* x# ` return ret
8 ~5 i' a# U$ M& V 3 ?5 l w, G* q/ f
$ B! ]1 c6 Q( ] # 返回残差和正则项
, w( G; i1 r t7 d' e& U- o def residuals_func_regularization(p, x, y):
. S( Z3 e3 J( q9 u ret = fit_func(p, x) - y
0 V& F- Q- {3 q9 b8 @ ret = np.append(ret,
' p, |2 [) u) t+ u! [ np.sqrt(0.5 * regularization * np.square(p))) # L2范数作为正则化项, d! J. o3 f7 S+ e9 z% q3 D9 Y
return ret
, X/ I9 M7 P z! r8 | T
* a+ m" r4 I$ j& I2 ~3 F k5 `) i % c; \1 k" r" T
def fitting(M=0):
" V2 v& O8 [' f2 e# z """
4 @1 r% B/ M7 {* S$ e M 为 多项式的次数
# \: ]7 y, v& x7 ~0 u: X """; @0 {0 b6 y6 U. ~: s
# 随机初始化多项式参数
3 t% ~7 l) a* J9 P/ Q1 F a2 | p_init = np.random.rand(M + 1) # 返回M+1个随机数作为多项式的参数
7 \) Q7 _9 v% r- i' } # 最小二乘法:具体函数的用法参见我的博客:残差函数,残差函数中参数一,其他的参数# h! t1 f. m) O' [8 |
p_lsq = leastsq(residuals_func, p_init, args=(x, y))% k( ~5 F- |1 ]# T' {
# 求解出来的是多项式当中的参数,就是最小二乘法中拟合曲线的系数( A$ u$ K# W, A! e& w$ k
# print('Fitting Parameters:', p_lsq[0])' y k' x; f. ^, w9 h$ g. T9 h4 A
return p_lsq[0]
5 o5 z C+ M! e6 b8 n 0 @2 |6 K. _0 Y4 d8 ^+ u6 q
* c- A" ]" M) _" M0 i2 i
# 书中10个点,对y加上了正态分布的残差
- ?, D! o1 s; O x = np.linspace(0, 1, 10)
) s9 O9 ?- x7 g: M y_old = real_func(x)' k% \& k8 ]5 {' V ~% {5 a
y = [np.random.normal(0, 0.1) + yi for yi in y_old]
# n7 U5 }' y' R0 z7 M* h
4 |# {4 n3 o4 n( w0 l* D8 e7 g) ~$ m ; [4 K$ O1 k$ K4 c+ _
x_real = np.linspace(0, 1, 1000)# [" T% y( \ H- Z3 F
y_real = real_func(x_real)% N# t5 |+ @8 M$ k4 j; I
8 p* X: x! j& H; j( C) L
8 A* F/ Y& Q0 m! j # # 画出10个散点,sin图像,和拟合的曲线/ i" O4 n$ B6 s8 W1 N% S
# plt.plot(x_real, y_real, label="real")% q8 ~7 ^- ^5 C- \
# plt.plot(x, y, 'bo', label='point')% R- I2 {4 G0 t3 n9 V2 _
# plt.plot(x_real, fit_func(fitting(9), x_real), label="fitted curve")
6 d6 H5 n) Z! C8 t1 m* j+ k # plt.legend()
8 V8 t; g1 V. i- c) B U z& U' m. e # plt.show()9 ?' h- ?" `. r
0 F6 R$ G6 U3 |0 P! _ P8 x
+ G: O: L7 n `# S7 Y( B
# 画出添加正则项的曲线
, f3 x/ a( |2 ~0 v8 `, J2 t6 h regularization = 0.0001
7 N9 a! _8 [! R p_init = np.random.rand(9 + 1)7 t! H+ w- P( d- e) e
p_lsq_regularization = leastsq(# _% k: m. z+ a
residuals_func_regularization, p_init, args=(x, y))/ p* `7 E0 t3 v- ?; }0 Z0 w# w
! _( U. h7 L: R- ^2 W; G ' L, u! W) Z$ ~% ~" Z4 Z
# 画出原sin图像,不加正则项的图像,加上正则项的图像,10个点的散点图9 B Z6 ?7 e; a" n+ [
# 不加正则项和加上正则项都是9次方,10个系数, Q% i+ p% b6 u
plt.plot(x_real, real_func(x_real), label='real')5 A7 w1 x4 z1 i0 t0 P9 L/ D0 r' y
plt.plot(x_real, fit_func(fitting(9), x_real), label='fitted curve')
. k0 Q% v' ]8 j, E! Q; P plt.plot(" M( g6 ]/ \" N- O+ A( ]5 p
x_real,( }# F2 J' f; R& ]
fit_func(p_lsq_regularization[0], x_real),
/ d% {0 P+ J* z, U- s6 s% S% F5 [' Z label='regularization')
" |+ |; ^+ d5 y$ w plt.plot(x, y, 'bo', label='noise')7 a0 `$ e" E( h8 c
plt.legend()
5 D5 o3 Z- }; H plt.show()( b0 ~3 t L* H/ T. X
5 D Q& u% Z O/ h- C
5 u' {! j& _: R A
! n" b3 T$ S* b+ l
' h; ^3 B) y9 E* ?: W- a: r* g
7 Z# c) k3 n+ J* ?& ]; @
zan