TA的每日心情 | 奋斗 2024-7-1 22:21 |
|---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测; X& t; m# X9 q
摘 要:
( N& {3 ?$ o8 a- ^2 w0 a本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss
, x# i, V1 L7 E: t1 V1 T8 t9 |映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析,
3 n) l9 e7 A- ?+ B, @5 \7 b模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别
8 C4 A4 U& I% J$ h2 a; ]. o, r+ `对未注释DNA 编码区预测进行了建模,实现和分析。/ j9 S2 r; m: P, B- @
针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱
( ~* B$ D! x% o5 B) @) A算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结% o3 [+ m+ ?# I" D
合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别
- A7 u. p* `7 U& q, {为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计
; h8 G2 ]3 T* F& m: A算公式。
* S: K" n( m8 y# Y3 e) C针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别4 J; b: O( \& k7 l6 N& T6 @
对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、
/ P6 ^6 m8 N5 ~总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值
: w; s1 J4 X S% w* N4 j确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。
: e8 U, W4 l2 X- L4 @7 B4 l2 p: r针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别8 ~: Q. X. p+ }% ^- Z q) ]
上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端
( Z/ {# P9 q4 T3 I9 ?$ o点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端
9 V7 h7 s! h0 Z* h" V9 y: U5 t点辨识准确度。
& W3 F1 z2 d3 _4 n0 S7 o2 Z! |针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非9 G) x/ c7 ~2 H, T# z8 J. F
3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上4 P1 n- z* A6 @( a$ ~1 Y
述指标识别编码序列的原理进行了概括与总结。
* m4 { H" o2 A6 {( C( i+ k* o本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判/ f" n* W4 @ b) \
别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比) d9 a& r8 g7 w1 p% T
- 2 -, D9 C6 |: e3 V g- N0 q
曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。+ z6 q, R, P9 ^- X0 u1 n' h
[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别
! n1 s7 p; @' ?% m2 D8 D9 S! b7 m
& W6 G8 L4 _% y+ Q' z( B
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|