TA的每日心情 | 奋斗 2024-7-1 22:21 |
|---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测, [ |. R% b9 l! b- X1 t
摘 要:* Z) X" Q& V4 \- s
本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss& A# c V: x5 f4 g5 c
映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析,9 O3 |& N# B* H6 \
模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别5 ~7 y+ Q: v: u6 D. ]2 u/ @5 l
对未注释DNA 编码区预测进行了建模,实现和分析。- s% Q( L, W) v5 e+ `' F
针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱6 y' n$ {& ?6 ?0 m$ k/ i& u
算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结
7 h9 D. r; R9 q) s2 m# z合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别
) ?4 _; W: n6 E6 V7 v; _为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计: _. X" J' Z0 L* _6 O
算公式。
/ M1 N8 N/ K" ]9 k" m9 N针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别
9 Y. P9 O3 f" ~: K对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、
7 b' Y# p; c, Y7 W总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值6 t+ L* B1 n3 T4 ?/ ?( w
确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。7 p1 O+ j( J/ B+ P
针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别
' }3 l7 g" N, O上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端
6 H( d4 Z9 `" b) f+ b- g; ^) u点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端 x! z1 ~# r6 u( e; s$ l
点辨识准确度。0 \3 G5 K: _$ y& A, M
针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非
* n1 u2 p2 T0 r) C- E, w3 j3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上 H( I1 L9 f* W" I4 u" W* ^' L
述指标识别编码序列的原理进行了概括与总结。$ R, l% w1 }$ D* Y* x- |
本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判
* f8 ^* I2 L4 O/ p别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比7 y7 e( W+ ]' v/ R/ x
- 2 -
m7 S8 h0 }; e( K1 O' M/ @曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。
1 V* X3 f% g3 S* A: p$ e[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别 E9 Z6 G( W& [$ L' a( @0 R
# T4 @$ v, c& G6 O4 m9 t( a( f& L9 m& g
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|