[2012A题优秀论文] DNA序列表示及基因识别方法研究

[复制链接]

字体大小: 正常放大

madio

3万主题	1312 听众	5万积分

TA的每日心情

	奋斗 2024-7-1 22:21

签到天数: 2014 天

[LV.Master]伴坛终老

自我介绍: 数学中国站长

群组: 数学建模培训课堂1

群组: 数学中国美赛辅助报名

群组: Matlab讨论组

群组: 2013认证赛A题讨论群组

群组: 2013认证赛C题讨论群组

电梯直达

1^#

发表于 2013-7-30 05:09 |只看该作者 |倒序浏览

|招呼Ta 关注Ta |邮箱已经成功绑定

题目 DNA序列表示及基因识别方法研究
摘要：本文就DNA序列表示及基因识别算法实现的相关问题进行了研究，取得了以下几方面的成果。 1. 功率谱与信噪比的快速算法
 针对Voss映射，给出了计算基因序列功率谱或信噪比的快速Fourier变换和AR模型，仿真实验结果表明，计算效率有所提升。经过理论推导，建立了功率谱、信噪比与DNA序列中核苷酸出现的频次之间的关系，即为SNR-F公式：
CGATACGTNNNNRRRRRNNNN 利用该公式，计算功率谱与信噪比将不再需要离散Fourier变换等计算量较大的运算，只需要对DNA序列中核苷酸出现的频次进行统计，然后进行简单的数值运算即可，有效提升了功率谱与信噪比的计算效率。
 推导出了Z-curve映射的功率谱与信噪比和Voss映射下的功率谱与信噪比之间的数值关系，即为：
4zEE和zRR 并从理论基础、生物学意义和特征三个方面对Z-curve映射和Voss映射进行了对比分析，刻画出了两种映射之间更深层次、更全面的关系。
 经过理论推导，给出了一般的实数映射下功率谱、信噪比的快速计算公式，将其功率谱、信噪比的计算简化为核苷酸出现频次的统计和简单数值运算，极大简化了实数映射下功率谱与信噪比的计算。
2. 对不同物种类型基因的阈值确定
2
 本文结合重采样技术，提出了最佳阈值确定算法，能为每一个特定种类的生物推测其最佳阈值。模型能够针对不同生物基因的结构特征，启发式地为其推断出一个最佳的预测阈值。仿真实验结果表明，附件中所给的人和鼠类生物基因预测的最佳阈值为1.7773，200个哺乳动物类的基因预测的最佳阈值为2.18。在合理确定窗口大小的基础上，利用该最佳阈值能显著提高基于功率谱分析方法的基因预测精度，同时还可用来预测该生物目前尚未标注确认的其它基因。
3. 基因识别算法的实现
 针对基因识别算法的设计与实现问题，本文首先利用基于AR模型重采样的基因预测方法对附件中给出的6个未被注释的DNA序列的编码区域进行了预测。然后，结合数字滤波器与信噪比快速计算公式，提出了一种基于SNR-F的基因识别模型。该模型克服了现有Fourier方法对DNA序列长度的限制，并且能够提高实现效率。最后，利用该模型对未被注释的DNA序列的编码区域进行了预测。两种预测方法相结合有助于提高基因预测的精度，同时使后期基因识别更具有针对性。
4. 延展性问题
 针对目前常用的基因识别算法对特征选取的主观性，建立了基因识别特征的动态筛选模型。该模型在训练中充分选取基因的多类特征作为候选特征，构造编码区与非编码区的正负数据集，运用特征筛选方法在数据集中提取主特征，以达到优化特征集、减少冗余度的目的。同时，模型用组合向量的方式实现多类特征的融合，将序列转换成特征空间中的向量，通过利用判别分析的方法达到识别的目的。特征的筛选和组合提高了基因识别算法的合理性和信息利用率，预测精度达到了98%以上，高于已有算法的预测精度。
 Z-曲线的提出表明利用几何工具可以有效地分析DNA序列，受此启发，本文基于改进的基于DNA序列的“四线”图，提出了基于改进“四线”图的DNA序列突变分析模型，为检测基因突变提供模型基础。
随着人类基因组计划的顺利完成，基因识别已成为生物信息学中最基础、最首要的问题。本文就基因识别方法的相关问题进行了深入探讨，提出了一些新的思路，期待有益于基因识别领域的后续研究。
关键词：基因识别，功率谱，信噪比，AR模型，阈值，重采样