TA的每日心情 | 奋斗 2024-7-1 22:21 |
|---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测
& l% e' u3 a3 ^7 ^" Y4 q摘 要:) X3 ~3 G% F. C/ |/ Z+ T
本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss
) ^1 |3 z8 R* y! ^" ?映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析,) f* _" |( E* p! w8 k
模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别
4 s6 ?" I9 P8 n) n5 P( U对未注释DNA 编码区预测进行了建模,实现和分析。
9 x) h7 v8 H7 ]9 B针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱
) h8 N2 y8 z5 z2 z7 V/ T' v# _算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结& c" [, k% c0 q
合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别
( n% l/ \0 R6 b" D为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计* C7 j; E2 i$ Q8 k/ L: j6 A8 A
算公式。
; {, p( \! e% d y7 W+ L- D& N3 n针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别: C; v% H# ~7 M. l- r9 ?
对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、
' ~: y' p; q) N4 L/ g3 S: Q i+ M* Y总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值! K- \) h& W4 T0 J% }
确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。3 d* v, W/ Q% ~5 n# k' P6 k
针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别
w, S& e6 E7 }0 d0 J) u上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端
/ ]$ o" l9 N& H, z点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端
R' F4 ?7 p7 |4 p点辨识准确度。
7 C% q, ^# v `* t针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非8 v; V, L' a- a1 }' X% Z( |
3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上
( J* ~* y! t9 m/ [7 _5 U述指标识别编码序列的原理进行了概括与总结。
& g# Y( Q6 u* r! B5 b- O: P: _本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判
6 y& ^! n# }4 e, {. i I0 B别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比
0 y) H( @# N, b: A! f4 c5 J- 2 -
$ B, N e* }/ G0 o7 s0 }曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。
/ K: V- z a0 X" L6 s[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别
1 E$ X/ \2 }( t
1 L* P. }0 c# v% S! t4 C
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|