TA的每日心情 | 奋斗 2024-7-1 22:21 |
---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测
/ B& T, }1 G, r1 ]$ W) N5 ?9 b摘 要:
1 R- A7 {! ~2 r: D2 y本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss
& E+ y3 t5 k K; Y映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析, Y* X( Q/ b8 \ v
模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别
$ |2 x4 ]/ d, @6 }. T) p6 T5 k对未注释DNA 编码区预测进行了建模,实现和分析。( k% K/ Y$ g+ t" j& U
针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱5 e( N% H) t5 F" f" D, S: |; c
算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结4 R5 V( H$ [3 H! T4 n! m
合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别" M- A0 z& H, Z7 L& ?( J( t; k
为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计9 s! K+ `( P. Y3 p" S- q
算公式。
3 x% i0 p2 f6 t5 E7 g- ]% c针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别7 w5 r! V+ h6 r- J( Z$ Z
对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、
/ ]8 [# k7 m; [5 p: B9 v/ _: [/ h! R总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值
! V. j t* {. F* K. L: ]确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。
7 _4 h4 J- {% G8 x针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别
6 Z0 f% H5 \5 U# J, l0 x' {+ i上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端) z* a1 z9 {% n' }: K
点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端1 `- b% _1 [# a" g0 L% H8 ?
点辨识准确度。' _6 I: S' M$ U' A- t7 o% b1 _
针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非
0 T9 J/ y: y# {/ o9 H. n# u3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上+ A Q% d5 d K I1 J# B) i
述指标识别编码序列的原理进行了概括与总结。% @7 _; c8 b5 ^+ l5 {# Q- c
本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判4 f( l2 c5 ~/ N+ l! [
别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比4 a. p; ]. Q& g x- W
- 2 -
. F: C& t* i, R5 d" z: _0 B曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。4 u. u/ b& Q! h0 r% W; R& S
[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别
2 o- g& x. _/ W5 i( k
) ^: Q6 n a4 @6 _
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|