TA的每日心情 | 奋斗 2024-7-1 22:21 |
|---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测
6 X* R; g3 T5 c$ O X! v$ I- D摘 要:" ~$ e: s1 F, [) r9 F$ ~
本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss4 R/ E2 l7 T: @7 l/ K
映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析,/ k" S" U. [6 n0 z( r2 p
模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别
0 E$ o' i4 f* w对未注释DNA 编码区预测进行了建模,实现和分析。
' k' L$ w& b2 r6 A针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱& R3 A% O6 ^' j; j h7 g+ E
算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结
( P8 I Z. L9 M# ?合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别( y0 S5 V2 E2 _; ?. b
为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计. z7 d! t+ H' [1 Z& e
算公式。
0 ]7 V. g4 O3 \; O; W F5 ~% C. w针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别
/ T. v4 A3 A* Q! i对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、
, a7 R c0 o1 Z! F总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值2 e! X: [4 S! K* v. Y( f/ d
确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。
5 p* J( ]6 N7 P针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别" J9 ?6 w0 U# T8 J4 {2 W8 ?2 l' c, `
上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端
/ b7 n: |% ?0 c+ _点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端
, \/ |8 y+ W& P* L点辨识准确度。: V% g( a5 z8 x' U/ V1 J0 i
针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非, D' P1 w. ?% K/ ^+ k) M. N
3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上5 H, `( n- W, @
述指标识别编码序列的原理进行了概括与总结。2 @6 k6 x# `4 m! U7 _5 C* X/ B
本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判 X0 X# n+ T9 f, X9 A% S9 E0 S
别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比
* g4 O6 U4 Q6 w- 2 -
6 v# z' e% r% W* B曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。& G# O/ S1 L, L2 g [* u" s0 B/ c9 g! S
[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别% K, w5 y0 f- X2 N
' X' H k( @ @, [* A
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|