TA的每日心情 | 奋斗 2024-7-1 22:21 |
|---|
签到天数: 2014 天 [LV.Master]伴坛终老
- 自我介绍
- 数学中国站长
 群组: 数学建模培训课堂1 群组: 数学中国美赛辅助报名 群组: Matlab讨论组 群组: 2013认证赛A题讨论群组 群组: 2013认证赛C题讨论群组 |
题 目 基于联合识别的基因预测% u& X( G& G: f3 v0 g8 j9 \9 k* G
摘 要:
, z9 b% f) I' |, Y" M; ^: _本文围绕基因序列识别问题,在合理假设的基础上,通过数学推导证明voss( J( r, L; V v
映射和Z-curve 映射效果等价,并给出了实数映射的快速算法。而后通过统计分析,
" Q4 V8 ?" A5 b, N; Y) r5 q4 u模型优化对不同类物种进行了信噪比阈值确定并验证其有效性。最后根据联合识别6 x/ g# k2 v' m1 c6 ]" L! w
对未注释DNA 编码区预测进行了建模,实现和分析。
9 v* S- K/ O8 p! o针对问题1:推导出了Voss 映射下功率谱与信噪比的快速算法。其中,功率谱* `! }0 U/ r n- b2 w5 ?2 t8 _
算法仅需统计,无需进行繁杂的DFT 变换;信噪比算法把加窗处理和平均处理结* K2 d2 {6 J. ]2 h+ Z
合起来,大大加快计算速度。同时推导得出:Z-curve 映射下的频谱和信噪比分别2 V3 w/ F+ m0 M4 \5 x& K* O
为Voss 映射下的频谱和信噪比的4 倍和4/3 倍,并得出实数映射下信噪比的快速计
' L* i( c/ L; ?6 v: W( w# H算公式。! X6 ]9 j% Y* E. Y. z! R+ h
针对问题2:采用3 种阈值确定方法:经验阈值法、最优化方法、曲线法分别
9 V1 b, D; W/ A% G& N" M" }$ f对人、小家鼠、褐家鼠、哺乳动物4 类基因进行阈值确定;依据敏感性、专一性、* y4 Y/ M- i/ F) S; i: n
总正确率3 指标分析不同阈值确定方法的基因判别效果,确定了基因的最优的阈值5 H* a$ d7 d0 t, v4 m% o9 F# e$ P. m
确定方法,并得到其最优信噪比阈值;最后针对误判原因进行了初步探讨。
7 x$ V4 B% J+ T. g& i2 ~针对问题3:单一的固定窗口的功率谱图或是移动序列的信噪比曲线图在识别2 B: y( L, d3 {' s% ?' ]
上不够精确,通过两种曲线的联合识别,能更精确的判断外显子片段(区间和两端
: z3 r' q* x% w; i) A N* t' n点)。且通过Matlab 里的Sequence Viewer 对所识别片段进行进一步辨识,提高了端8 a# z! Q% ?. d6 X& `& A
点辨识准确度。
8 f5 J: ?5 m( P* i }# g/ f6 b针对问题4:总结出以下几种能够识别基因编码序列的特征指标,分别为“非: e$ D: n0 B1 v& N% O0 }
3-碱基周期性”编码序列指标,旋转矢量指标,非均匀指标及干涉指标。并对采用上2 x( h5 d, a2 [7 ^* J" P, F" O
述指标识别编码序列的原理进行了概括与总结。0 @, v7 ]# I2 ^5 [- E9 r) ?. J
本文亮点在于:(1)找到2 种最优阈值确定方法,通过统计其判别正确率,判- o) d( G5 L0 G0 O5 q) {0 e
别效果均好于以2 为阈值的经验法;(2)结合固定窗口滑动法与移动序列的信噪比) ]6 P/ b/ S' U2 F) y
- 2 -
) K# f, k6 v8 y' h" b# T0 k& ` h; E曲线法对基因识别的特点,提出联合识别理论,提高了辨识效果。4 {& s2 h4 f/ z/ i3 U! p$ g1 R' S
[关键词]:基因识别 功率谱 信噪比 阈值 3-周期特性 联合识别* g. @% y% Z, P3 v
9 ~" g9 ^( b5 T9 I! I% Q# _
A10422053楚何程.pdf
(1.38 MB, 下载次数: 109)
|
zan
|