数学建模社区-数学中国
标题:
DNA序列表示及基因识别方法研究
[打印本页]
作者:
madio
时间:
2013-7-30 05:09
标题:
DNA序列表示及基因识别方法研究
题 目 DNA序列表示及基因识别方法研究
2 M6 u$ y2 \- m7 e
摘 要: 本文就DNA序列表示及基因识别算法实现的相关问题进行了研究,取得了以下几方面的成果。 1. 功率谱与信噪比的快速算法
4 L8 D3 Z6 u3 m, c
针对Voss映射,给出了计算基因序列功率谱或信噪比的快速Fourier变换和AR模型,仿真实验结果表明,计算效率有所提升。经过理论推导,建立了功率谱、信噪比与DNA序列中核苷酸出现的频次之间的关系,即为SNR-F公式:
5 ~1 h+ p& b5 Y/ u# e) E
CGATACGTNNNNRRRRRNNNN 利用该公式,计算功率谱与信噪比将不再需要离散Fourier变换等计算量较大的运算,只需要对DNA序列中核苷酸出现的频次进行统计,然后进行简单的数值运算即可,有效提升了功率谱与信噪比的计算效率。
, i2 P; l( I; D5 `2 E
推导出了Z-curve映射的功率谱与信噪比和Voss映射下的功率谱与信噪比之间的数值关系,即为:
& u9 c3 z( o$ V P' Z+ r
4zEE和zRR 并从理论基础、生物学意义和特征三个方面对Z-curve映射和Voss映射进行了对比分析,刻画出了两种映射之间更深层次、更全面的关系。
' p+ o. a9 I% N% I, m' }& k
经过理论推导,给出了一般的实数映射下功率谱、信噪比的快速计算公式,将其功率谱、信噪比的计算简化为核苷酸出现频次的统计和简单数值运算,极大简化了实数映射下功率谱与信噪比的计算。
; ^; K& ~- j$ t; o, [
2. 对不同物种类型基因的阈值确定
: Z' c5 G" j* T4 H6 n$ W, o
2
) @3 H6 [: n. N* B1 {: v: y' s
本文结合重采样技术,提出了最佳阈值确定算法,能为每一个特定种类的生物推测其最佳阈值。模型能够针对不同生物基因的结构特征,启发式地为其推断出一个最佳的预测阈值。仿真实验结果表明,附件中所给的人和鼠类生物基因预测的最佳阈值为1.7773,200个哺乳动物类的基因预测的最佳阈值为2.18。在合理确定窗口大小的基础上,利用该最佳阈值能显著提高基于功率谱分析方法的基因预测精度,同时还可用来预测该生物目前尚未标注确认的其它基因。
; ^. z' v; I! h
3. 基因识别算法的实现
% B/ W/ z2 y' m2 ?* @( T1 ^
针对基因识别算法的设计与实现问题,本文首先利用基于AR模型重采样的基因预测方法对附件中给出的6个未被注释的DNA序列的编码区域进行了预测。然后,结合数字滤波器与信噪比快速计算公式,提出了一种基于SNR-F的基因识别模型。该模型克服了现有Fourier方法对DNA序列长度的限制,并且能够提高实现效率。最后,利用该模型对未被注释的DNA序列的编码区域进行了预测。两种预测方法相结合有助于提高基因预测的精度,同时使后期基因识别更具有针对性。
: _8 W# I+ G' U: ]7 x
4. 延展性问题
% t$ P, o4 p. h' ^# i3 f
针对目前常用的基因识别算法对特征选取的主观性,建立了基因识别特征的动态筛选模型。该模型在训练中充分选取基因的多类特征作为候选特征,构造编码区与非编码区的正负数据集,运用特征筛选方法在数据集中提取主特征,以达到优化特征集、减少冗余度的目的。同时,模型用组合向量的方式实现多类特征的融合,将序列转换成特征空间中的向量,通过利用判别分析的方法达到识别的目的。特征的筛选和组合提高了基因识别算法的合理性和信息利用率,预测精度达到了98%以上,高于已有算法的预测精度。
6 x1 q7 C2 B+ U0 t" G3 w! d1 n
Z-曲线的提出表明利用几何工具可以有效地分析DNA序列,受此启发,本文基于改进的基于DNA序列的“四线”图,提出了基于改进“四线”图的DNA序列突变分析模型,为检测基因突变提供模型基础。
- ?* l5 H5 Q" [+ t7 `9 x3 v8 ?
随着人类基因组计划的顺利完成,基因识别已成为生物信息学中最基础、最首要的问题。本文就基因识别方法的相关问题进行了深入探讨,提出了一些新的思路,期待有益于基因识别领域的后续研究。
& j$ n+ ~- W7 _ O2 X' Y' D N
关键词:基因识别,功率谱,信噪比,AR模型,阈值,重采样
; `- m% y+ X/ u% e3 n
- F& O& U! L5 L9 Q; K0 i* f
A90005004杨丁刘.pdf
(1.16 MB, 下载次数: 182)
2013-7-30 05:09 上传
点击文件名下载附件
下载积分: 体力 -2 点
作者:
我一直都在
时间:
2013-8-7 08:03
A题做的最多 公示论文却最少
作者:
hwj1991
时间:
2013-8-21 20:08
哎哟 不错哦 求传文章啊
9 Z0 W% D& S4 y4 o8 S
作者:
joycezhou
时间:
2013-8-27 12:27
作者:
yahsu
时间:
2014-6-8 18:47
谢谢分享 好定西
作者:
yahsu
时间:
2014-6-9 17:18
好东西 谢谢分享
作者:
fz5722
时间:
2014-6-12 17:13
' `1 u- s2 }/ _$ k! Z- ^4 }
好东西 谢谢分享
作者:
建模娃
时间:
2014-8-23 20:35
o 哦哦哦哦
作者:
luo841297935
时间:
2015-8-26 16:59
xuexi!!!
. m% ?% A7 S2 _( |, h @1 D
作者:
sx2460927670
时间:
2015-8-27 16:23
谢谢楼主
V& ~" d9 L0 E1 S
作者:
sx2460927670
时间:
2015-8-28 15:44
谢谢楼主
. S( [6 w6 O# C/ d4 D0 Y: O. D
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5