基因识别问题及其算法实现基因识别问题及其算法实现
题 目 基因识别问题及其算法实现基因识别问题及其算法实现摘 要:
本文主要利用基因编码序列的频谱3-周期性,使用信号处理和分析的手段处理DNA序列,运用已知编码区域的基因样本,建立了基因编码区域识别的数学模型,并应用此模型对6个未知的DNA样本进行了编码区域预测。最后讨论了基于信号处理的DNA频域分析法在检测基因突变领域上的应用。
对于问题一,我们推导了基因序列的Voss映射、Z-curve和实数映射在计算N/3频谱峰值和总功率谱平均值中的快速算法。使用碱基在子序列出现的频数进行计算,避免了DFT的繁杂运算,特别的是当连续的滑动窗口或移动序列时,出现频数可以由之前频数简单处理得到,使得频谱与信噪比的求解为常数复杂度。讨论了各数值映射关系的优劣,并决定在建模中使用Voss映射。
对于问题二,我们定义了识别灵敏度和识别特征度两个指标量来定量的描述识别算法的优劣。对于基因识别算法模型中的重要参量——判别阈值,采用“大范围、小步进”的方式遍历搜索。对于每一个判别阈值分别求出相应的灵敏度和特征度,并分别给出了具有工程意义的90%、80%、70%特征度意义下,灵敏度最优估计阈值。最终将获得阈值在同一物种DNA样本中进行编码区域识别验证,取得了预期的效果,说明了阈值确定方法的合理性。
对于问题三,我们结合了已有的识别算法,针对识别序列破碎、端点模糊等问题,在计算过程中加入一些滤波、填补、检测调整等辅助方式,获得了较为精确的外显子识别算法,并应用新识别算法对已知编码区序列进行验证,取得十分良好的效果。最终应用新算法于6个未被注释的DNA序列的编码区域预估中,预测出相应的编码区域。
对于拓展性研究,我们探讨了DNA频域分析法在检测基因突变领域上的应用。通过对DNA序列中单个核苷酸进行替换、删除、插入等操作,根据DNA序列频谱的变化,观察
[]3NP
幅值的衰减或者产生的杂散谱幅值,大概分析出基因突变的核苷酸位置。对接下来深入研究基因突变检测具有指导性的意义。
关键词: 频谱3-周期性 阈值确定 编码区预测 基因突变识别
谢谢楼主分享! 看看。。。。。。。。。。。。 {:3_48:}{:3_48:}{:3_48:}{:3_48:}{:3_48:} 谢谢 分享 好东西 好东西 谢谢分享 谢谢楼主
页:
[1]