TA的每日心情 | 奋斗 2024-7-1 22:21 |
|---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测
4 v4 H4 d! q+ `. D摘 要:
8 S2 }# o0 |: G D) N2 i本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss
- d ^0 Q5 T9 t: U" A9 q+ K, ?映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析,
8 i- K* [( e, L6 p* j# \模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别/ U1 W, n2 |" u! z% `
对未注释DNA 编码区预测进行了建模,实现和分析。
6 a: E$ w3 _9 ^4 S+ Z/ W1 p针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱
/ g7 O3 H" v" D. K: V2 E9 w1 i! l算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结/ i+ [2 P. d4 s9 i4 }
合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别
" \# q: T: _) o' x为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计# F5 W. P9 e7 t8 S8 o5 j; X) `9 G. \
算公式。0 X6 J! V2 |: W7 r
针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别
+ }8 ?: c+ B( H+ n4 [ X对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、7 ^; r% y9 f6 c, w, o0 j
总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值
$ j; X' d1 h. ]1 \0 a6 Z- w( C# v确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。
: Z5 Y0 D# v& x9 h2 c4 j针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别
" J5 s) B. T _1 y! B& X+ M/ [上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端; J( f v4 p* @' y% B
点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端
% v" e. q1 Y/ ]/ F点辨识准确度。
. |+ t. P1 Q* e5 }, B; Z2 N" I针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非
6 x2 \& U! E* y( j4 C; I" G- h3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上( R* b$ r% y6 N
述指标识别编码序列的原理进行了概括与总结。( x6 A% e* q6 s0 z
本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判% T# h6 c" t; T. C6 X
别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比6 Q) ~' e0 l/ b l9 G
- 2 -& z% [: w- [( p9 q0 {: ?. r
曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。
# v7 ~; s& q, |, _0 U6 B4 Q[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别) ^' z' |! `8 I; l
' s4 _* o$ N6 ]( t5 X
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|