数学建模社区-数学中国

标题: 请问在哪里可以找到这道数学建模题!求帮助, [打印本页]

作者: 坏小子说笑话    时间: 2015-8-18 15:39
标题: 请问在哪里可以找到这道数学建模题!求帮助,
DNA序列的k-mer index 问题
0 |/ z8 x# h7 ]0 K: \给定一个DNA序列,这个系列只含有4个字母ATCG,如 S =“CTGTACTGTAT”。给定一个整数值k,从S的第一个位置开始,取一连续k个字母的短串,称之为k-mer(如k= 5,则此短串为CTGTA), 然后从S的第二个位置, 取另一k-mer(如k= 5,则此短串为TGTAC),这样直至S的末端,就得一个集合,包含全部k-mer 。 如对序列S来说,所有5-mer为9 e- E4 k. e: a6 `5 n1 r

# U; {. z2 u0 Y0 N  J{CTGTA,TGTAC,GTACT,TACTG,ACTGT,TGTAT}
5 @& X1 O# Y( k) W! K
' e" h. u! z4 d* K/ ?- U通常这些k-mer需一种数据索引方法,可被后面的操作快速访问。例如,对5-mer来说,当查询CTGTA,通过这种数据索引方法,可返回其在DNA序列S中的位置为{1,6}。
: Y& v! z& P$ l: j9 ?$ Z/ p
, L9 h, t  X# L( V4 g问题" Y: B& u8 K' [3 q/ T
) ]4 S. {5 b0 E: }: G' r
现在以文件形式给定 100万个 DNA序列,序列编号为1-1000000,每个基因序列长度为100 。
0 ]5 ^4 k9 g$ L6 p' i% h9 [/ v! E' C: m! p9 u
(1)要求对给定k, 给出并实现一种数据索引方法,可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。每次建立索引,只需支持一个k值即可,不需要支持全部k值。! [. p- s, R6 Z) y

% p6 m" Q3 m; l8 v; V8 k6 m4 @(2)要求索引一旦建立,查询速度尽量快,所用内存尽量小。
, W! g2 y6 A  N" Y6 L) |% ]
( \0 |7 A3 A+ V8 _& X4 d) O( B* I(3)给出建立索引所用的计算复杂度,和空间复杂度分析。* E6 ^; S; I3 ]
; P5 Y( f& \& |! I0 w
(4)给出使用索引查询的计算复杂度,和空间复杂度分析。8 P. F* T1 Q0 U4 ]! I: c, p
# C, C" j# w& \
(5)假设内存限制为8G,分析所设计索引方法所能支持的最大k值和相应数据查询效率。5 h$ R4 o( N( w4 g& u4 f# R2 J
(6)按重要性由高到低排列,将依据以下几点,来评价索引方法性能
: f+ r, f, V9 p) J, v' K: {; E
0 B1 Y& g, W$ z1 C! \$ h希望好心人帮忙
: z! k( u3 Z5 \) p9 [& l  k1 L  \




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5