实际问题是这样的:, `( [: u! h/ E( N' j$ ?, A2 i) E
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)? $ P9 {. G1 u% G" { $ `) g2 c+ d! }概念解释: 2 L7 I( f' Z: S7 rreads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads 1 ~6 E1 ?( R) y" W( v测序深度:测序的reads的总大小 /基因组大小,叫测序深度 1 O- i' A( H$ I2 N" \; Q Q# H, x( O# S( t之前,生物信息估计基因组大小的方法) r/ \3 _4 u# n2 F# x
我的实验过程是这样的8 x) {. y/ X' d. `. N4 G. w4 T3 D
5 J4 N2 m ~4 T \1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT+ u8 k7 X% L# [4 T
2、统计相同K-mer出现的次数(叫K-mer的深度)5 K* I, a' k4 ?* t
3、统计相同深度出现的次数(叫深度的频数) 9 A( f: A' C, v1 K4、作深度与深度的频数的图/ M4 A. Y( L7 {2 I. f; o6 S
: j% ?4 Y" D4 L" B5 e' @, n3 _假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)/ Z+ Z% B3 L. Q+ k, a0 O0 M# Z
% o. Y( M+ r$ e8 l0 h$ C我的问题:) L& E+ f" T/ J: ]
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。; T8 D) S. z+ i$ l# d0 p, @
那么, 1 B# b# G; X$ H- Q7 A1、这样的图是符合什么数学公式了? & [ Q* t# J5 N5 |$ c2、能否区分出基因组中重复的区域?' }3 R7 S4 ~6 \% A0 `) X
2 d j3 ?: f0 e' K
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。0 F7 c( \1 [. {) s4 M" F" p# I
那么,3 y$ `1 T; E8 B
1、这个可以用数学公式表示吗?0 i: t' k! ~6 q9 C! X) R7 }4 g& ^
2、能否区分出污染的数据?8 X2 U* y& k! E) b' E3 ]
3 T, q/ G6 w' [6 w, Q
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx) ( J% g9 }! Z. j8 W: }) C! Y3 P/ E4 q9 k! j2 o/ s! R. t3 O
3 Y; G$ L% D4 {( v* y! I
自我介绍% T) ]% q2 P C. @" \
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。 / P7 N1 L5 r4 K# B6 Y4 a( C' ^" d( g 1 j% c9 h& v; Y+ B希望得到数学同志们的帮助,9 Y5 I% Z8 U1 O" ?
我的邮箱是:jingyc01@163.com,qq是51178182 7 v; ^, t! p' y$ b F/ K0 j6 c* h3 ^- h* Q# S# y+ C2 k, H8 A2 J) ?: v