多重序列比对的数学模型与算法自美国提出组织的人类基因组计划(Human Genome Proreet)简称为HGP以来,美国每年拔出相当大的经费支持,日本、法国、英国、德国等纷纷响应,它们的工作使新的交叉学科生物信息论得以诞生和发展,生物信息论是用数理和信息科学的观点、理论和方法去研究生命现象,组织和分析呈指数增长的生物学数据。生物信息学是一门综合学科,是计算机科学、数学、物理、生物学的结合。生物信息学的基础是各种数据库的建立和分析工具的发展。目前,生物学数据库已达500个以上,共有四大类:基因组数据库,核酸和蛋白质一级结构数据库、生物大分子三维空间结构数据库及其以她们为基础构建的二级数据库。生物信息学主要研究基因组测序及其信息分析、生物大分子的结构与功能预测及其模拟和药物设计、大规模基因表达数据的分析与基因芯片设计,以及基因与蛋白质相互作用网络等四方面的问题。0 }" W5 j) J9 ?+ U6 y
多重序列比对是计算分子生物学中最重要的运算。多重序列比对的基本问题就是找出适当安排删减与插入尽量少的空格,使得两个序列达到最大程度的一致的方案。比如给出下列三个序列:; A1 F& R, r) k+ [& Y4 t: ^0 o
AC_G
" B, P8 k" B5 }, O( [ AGTCC (1)
1 Y( n' q5 O. b- N) d) x8 ? ACT
( n l s7 `. r$ X; }& g u( \! s1 s6 w) ^8 ]
我们适当安排删减与插入空格得到:+ l: a8 ]3 J' O) q4 f3 a
ACG___
8 C! l2 f3 a( L' v+ s' s3 z, S A_GTCC (2)
$ X0 `" F: \0 A; |( i+ @ AC_T__
! P* k$ G6 e/ }5 |5 u0 H* }1 j0 q* i
" I: V* b2 I) t l(2)就是多重序列的一个比对。, U$ P. \7 Q! E" k' H
局部分段比对是其中更为常见的运算。上世纪80年代,Smith-Waterman提出了两个序列的局部比对的明确的模型。1998—1999年,相继出现利用k-tuple的快速容错分段比对搜索法。2002年开始出现对完整基因组及其异常基因的比较研究以及多重序列比对问题的研究,2003年刘军Mayetri Gupta和刘军得到Motif的搜索算法。, A3 U+ V; \! I" s* f4 x
人类基因组计划后,目前已经进入后基因时代,主要就是对人类基因组计划实施得到的基本数据库进行信息分析、加工和利用,提取有用信息,用来研究生命现象中的重大问题。多重序列比对问题是生物信息学的基本问题,多重序列比对技术也是生物信息学的基本工具,有着十分广泛的应用,比如基因是否为同一个家族,癌症患者的基因与正常时的基因比对分析等等。因此,请您们就基因的多重序列比对,设计合理的衡量比对好坏的定量描述模型,建立多重序列比对的基本问题的数学模型,并设计一种求解的算法。最后就附录一中的12个序列,请您们利用你们得到的模型与算法,给出使序列有最大相似程度的比对。7 e6 P: S5 V' P9 x
附录一:
4 b1 Q, X. N' s7 F1 B3 ^% VCATTTCTTTTTAGGGATTTTAAAAGTTGTCTTTTCTT6 x' h" v2 c- |0 L
CATTTCTTTTTAAGGTTTTAAAAATTGTCTTTTTT
9 k" L$ A# O: a+ \8 {$ ECATTTCTTTTTAAGGGTTTTAAAAATTGTCTTTTCTT, |0 k3 |; a6 Y0 R) X
CATTTTTTCTTAAGTGTTTTGGTATTTATCTTTTTCTT; ?2 ~! M1 B2 w: K9 G" C& S! }" X
CATTTTTGCTTATGTATTTATAGTGGGTTGTCTTTTTGACTT5 A. }& @( O2 a9 M
CATTTCTTTTGAAGTGATTTGAGATTTATCTTTTTCTT
+ j4 c! @+ b# [: S* F/ _CATTTCTTTTTAAGGGTTTTAAAAATTGTCTTTTCTT
! I8 ^) l+ R* q) b( ?0 H: sCATTTCTTTTTATGTTGAGATATTTGTCTGTTTTCTT, l' J& W# m( N+ h& t- o. p3 L
CATTTTTACTATGTGTTGATTGTGGATTGTCTTTTCTT
# A6 r4 v) j$ O( i" rCATTTCTTTTATTGAGTGAAGAAGAGATTTTGTCTTGTTTTGAT
& P( V9 q, H/ u9 hCATTTTTCTTAGTGTTTTGGTATTTATCTTTTTCTT. i8 O$ }2 ^! l. A" a
CATTTCTTTTAAGGGTTTTAAAAATTGTCTTTTCTT |