TA的每日心情 | 奋斗 2024-7-1 22:21 |
---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测, I, I* z" E% m& e }
摘 要:1 W0 ~2 Z; }$ w. J4 w% e+ U
本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss0 o$ ?" F& @* w2 C6 O4 f
映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析,
4 C: W0 |2 s2 N- f模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别
% N4 W7 [* X1 Y* e7 Y& K$ ]4 H% J' A* O对未注释DNA 编码区预测进行了建模,实现和分析。
; d( I. ?, L. R/ K0 }2 L9 F+ l针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱
9 i1 V) Y" E, C" E& R, B* D算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结
0 J7 R N2 F; w合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别
, F( [+ f- s: Y; R$ ]- N为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计
' J2 j& h2 a( O0 V6 P4 N4 E7 h算公式。
6 F0 C( d2 u8 `0 e针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别
3 U$ e( O- m U对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、
1 c5 ?! R" Q: z/ E6 U4 |$ L5 `总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值. H" {- {2 {9 J
确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。" B/ O( a3 ], ^! s* }4 }
针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别) B1 x- S6 H' Q( H: S
上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端2 B) v* p# m/ A4 e3 ?
点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端# Z. G( u3 i; x6 W& c
点辨识准确度。
& ?4 M- X. f8 v& |+ e7 @针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非% F) S3 ]+ X( @6 D
3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上7 u; O# u0 C; l+ e" Q/ J. a c# R
述指标识别编码序列的原理进行了概括与总结。* m6 G, G6 z0 Q+ K
本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判
: {& u$ |* z, v0 N8 z. \; K" F2 m& }别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比/ [" N& s x1 T5 \
- 2 -! k1 U" Z I9 f- @' {; S! n: D
曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。
L9 ^1 A; d8 O[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别
! `& j" `9 P: L6 _. f' h& w* l `9 i( W( o) g( U U( U
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|