3 k' U+ X1 `8 O问题 ! J! m& T* \' p A! j & w3 w. x' q) c( E6 S现在以文件形式给定 100万个 DNA序列,序列编号为1-1000000,每个基因序列长度为100 。 * V, M. G0 _7 v" a1 o8 p. P2 m2 t C" V. ^9 @; {% a
(1)要求对给定k, 给出并实现一种数据索引方法,可返回任意一个k-mer所在的DNA序列编号和相应序列中出现的位置。每次建立索引,只需支持一个k值即可,不需要支持全部k值。 4 w7 R2 ^7 {/ G: V. s. Y, ?' k, [* r( P0 W7 S0 H8 g
(2)要求索引一旦建立,查询速度尽量快,所用内存尽量小。 $ A$ u1 i9 B3 N 6 a' E8 C' g0 g$ C(3)给出建立索引所用的计算复杂度,和空间复杂度分析。2 q3 k3 N5 D a7 C- X