TA的每日心情 | 奋斗 2024-7-1 22:21 |
|---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测
, I( N( W8 |8 x; p* Y5 U7 @摘 要: B& M" Z" k' x, E
本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss y) F/ D. ?5 O
映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析,6 E: q" e$ w1 y' |& d
模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别
& v, m, C1 l2 }对未注释DNA 编码区预测进行了建模,实现和分析。
6 z( u/ {, P" ]1 I针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱/ J& o F- O3 X% j. }
算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结- ^* q2 o4 e9 ~2 ^
合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别( U* A) j, ]* {3 L2 m# D% m M
为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计
3 _: L7 Y& ^: C# M; ?1 N8 w, b算公式。/ v( b# J E2 A u6 Q" @1 K
针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别7 E+ C4 ], T* I m
对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、
3 t) T0 p( {" \$ L Q1 [总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值! r$ S o) ?& H
确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。
6 h! G+ O e# [: d' f' c2 e) M5 S针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别
$ s, s, s6 [/ j) h7 H9 O上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端& d1 P3 `% W5 x% v* s
点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端
4 j- t' j" U" }: `点辨识准确度。% @) v' m8 u8 }
针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非
) d7 J0 Q3 M( y) r- W9 ]0 z5 ?' R3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上
5 P" {' W" t0 f- H6 O/ f) ~述指标识别编码序列的原理进行了概括与总结。
5 A* x) a) N, }0 Y本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判
( [1 T8 j" u8 j0 u" E, X' w别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比
& A) p; p X( w. [& a+ C- |- 2 -$ l: n8 B$ ?( M! C4 r% J% l6 f
曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。
0 H& y% G- f( B: J[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别
0 U [, U, Q3 Q% O# y8 f
% o( ?$ W4 i. @8 }# n. H
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|