TA的每日心情 | 奋斗 2024-7-1 22:21 |
|---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测
, m8 C6 [7 h e! ]1 u, F摘 要:
- {0 h1 ^% }# e. M本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss
: s# d: l$ L* E2 e/ w( a% j映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析,
# Y; r1 K+ J- O2 A, R! i3 @3 n模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别: P$ K8 ^$ C7 {$ f" J
对未注释DNA 编码区预测进行了建模,实现和分析。- F' M: A5 K0 v$ _+ D
针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱
8 p8 K! D: u& ~. @算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结1 |! [, k: E. G4 c0 |& X% F
合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别
" Q' D, o4 F/ y: y4 g) e6 z% f' U& w, `" t" z为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计 X' p& |) e2 X' Q: h$ C: ^0 _
算公式。
- @# P) ^, o2 X3 G* @* o针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别- G8 S& E% A }+ F* I5 j) U& a
对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、
: g8 g4 d4 \8 a3 R0 n6 W总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值
2 u+ l! H5 ]; l0 H' U( l确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。! l* f% b* _0 @( l9 j% m
针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别; z2 u% Y! S8 o7 |% W. s+ ?7 O1 ~
上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端# g* j4 M- E. p+ y( J
点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端/ Z G; U& D8 l ]% z. I( n" t
点辨识准确度。% C# z4 b4 q2 R3 \- e5 D3 |; ?4 _
针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非 N3 V e+ ?6 r; w+ M z0 E8 u
3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上
% f: [6 ], ~* }1 C述指标识别编码序列的原理进行了概括与总结。0 ` Z5 S$ \$ _0 {+ C
本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判
4 h/ A* s8 k6 V别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比3 f3 _8 P4 \4 j3 w
- 2 -+ X3 o+ P4 q ?
曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。; W$ x6 [1 m0 W m3 s
[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别! w# w3 W0 i( {2 ?1 i( f+ F
8 K9 ~6 q. c4 N, W; y
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|