TA的每日心情 | 奋斗 2021-5-1 20:26 |
---|
签到天数: 2013 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
化工过程随着大规模的实验、观测与模拟的应用而产生大量复杂数据。由于测量仪器成本的降低,化工数据应用面临的问题往往并非数据信息量的不足,而恰恰相反是数据信息范围过大及更微妙的数据关联性。在此背景下,特征(变量)选择近年来成为了许多相关化工领域研究的热点问题。鉴于已有变量选择方法存在的不足,针对化工数据的强非线性及机理复杂等特点,本文提出相匹配的新型特征选择方法及增强优化方法,结合多种化工数据进行案例分析,在提高预测精度并降低模型复杂度的同时,也加深了对相应案例机理的理解。为了应对化工领域对快速特征选择的需求,本文开发了基于Boruta算法的新型顺序消除特征法。利用Boruta算法对变量重要性评估的稳定性,结合快速的贪婪式搜索,逐步减少原始数据中的特征数量,并得到一系列不同长度的特征子集以供决策者考量。本文将该方法应用在化合物可降解性数据的研究中,构建了16个不同长度的特征子集,其中最优子集的预测精度在外部验证数据集的性能较已有结果提升了1.4%。在CO2吸收工艺数据应用中,此方法成功地将预测3个过程变量所需的操作变量都压缩至4个,取得最佳验证效果的同时简化了模型,为进一步优化奠定基础。卷积法可以应对化工领域对较高预测精度的需求,但过拟合问题是影响卷积法预测性能的主要威胁之一。针对卷积法易产生过拟合的问题,本文开发了新的单目标卷积法,其混合自组织映射(SOM)与随机森林方法(RF)对原始特征集聚类,进而选出代表性特征集并将其强制加入最终子集,以尽可能涵盖原始数据信息。在取得代表性特征集的基础上,通过适当调节遗传算法(GA)的算子参数以控制搜索深度。本文将该方法应用在化合物可降解的数据中,通过比较6种搜索情景下的性能,发现GA中变异与交叉概率分别为0.3和0.2时新型卷积法SOM-RF展现出了良好的抗过拟合性能,同时将前人的总预测精度从0.877提升到了0.893。根据奥卡姆剃刀原理,卷积法过拟合的原因之一是在子集中引入过多的特征,因此本文引入了多目标卷积法,其同时考虑了模型的复杂度与预测精度,给出了模型泛化性能随着引入子集中特征的数量变化所引起的趋势,并将其应用到了汽油馏分的纯组分辛烷值预测中。本文采用结构性质关联模型(QSPR)对汽油馏分中纯组分的辛烷值进性了预测,为了增强模型通用性,数据集中包含了一定数量的含氧及含氮化合物。针对过多的分子描述符会降低模型性能的情况,本文采用了两步特征子集优选法。第一步基于皮尔逊系数和Boruta算法进行过滤;第二步针对单目标卷积法倾向于使用较多特征数量而易产生过拟合的问题,引入了多目标卷积法,其同时考察了模型复杂度和泛化性能,提供了特征子集长度与模型预测精度的变化曲线。通过这些手段,本文最终找到分别包含12个和23个描述符的特征子集用以预测研究法(RON)和马达法辛烷值(MON)。基于优选子集使用支持向量机建模对RON和MON预测的平均绝对误差分别在4和4.4个单位以下,预测效果较前人结果,RON精度相近,MON的误差降低了1.3个单位,但是模型的通用性更强。为了更好解决多目标卷积法在搜索过程中存在的过拟合问题,本文提出新型目标函数weighted-sum,并将其与随机森林有效结合,兼顾了训练集中验证效果与“选择集”中的泛化性能。传统避免过拟合的方法随机性较强,需要重复多次试验,从而耗时过长。针对该问题,本文提出了两阶段多目标卷积法。第一阶段采用线性分类器线性判别分析与多目标优化算法NSGA-Ⅱ结合产生候选子集,第二阶段采用非线性分类器对候选子集进行精炼。本文在最为耗时的优化过程中采用了线性分类器,大大降低了优化时间,并且第二阶段的精炼结合weighted-sum目标函数保证了子集的预测性能。本文将该方法应用在化合物可降解数据中,得到了两个重要的结果:首先,找到了包含19个分子描述符的最佳精度0.894,与之前结果相比,在保持精度相当的基础上大大提高了稳定性;其次得到了精度较优的短特征子集,包含5和6个分子描述符的特征子集具备了超出0.88的精度,大大简化了原有模型。由于特征选择本质上仍属于优化问题,对于优化方法有着较高的依赖性,因此对于优化算法的组合研究也很有必要。本文将遗传算法与模式搜索相结合(GA-GPS),并将其引入Lugri类型甲醇生产厂的优化中。通过对壳层温度轨迹和CO2循环率的优化,结果显示当CO2循环率为5%时反应器产率提高了2.53%,增加了经济效益同时减少CO2的排放。混合优化算法对于改进特征选择效果也有着较为广阔的前景。综上所述,恰当的特征优化策略结合先进机器学习方法可以在提高化工数据预测精度的同时简化模型的复杂度,将海量化工数据的“黑箱”变“灰”,为进一步深挖机理,彻底将机理变“白”奠定了基础。
3 j _3 |( ?: G% y' q* I6 P, X% r' x% {" d, I! x
|
zan
|