数学建模社区-数学中国

标题: 关于泊松的问题(生物信息学的一个问题扩展) [打印本页]

作者: chuchumaolu    时间: 2010-9-7 18:35
标题: 关于泊松的问题(生物信息学的一个问题扩展)
实际问题是这样的:
2 j, N0 T. O  m5 ~, `: l在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
* I! |0 v2 M+ M* F4 c4 H5 J# F3 v" N3 `( K3 w6 g' S# x3 J$ ^. B. L
概念解释:+ f/ }. d  @* ^! Q1 K
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads9 g/ r# J9 t" f
测序深度:测序的reads的总大小 /基因组大小,叫测序深度6 c9 i" a) _3 d% \) N, V

, Q) ^2 V$ \" N3 ]5 }# N6 J之前,生物信息估计基因组大小的方法+ o, V7 k; S2 N4 M* ?
我的实验过程是这样的5 M8 y  J$ g0 k* {  R& q, ^

! r( \) _' t& O- _1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
/ O. R6 B6 u+ W2、统计相同K-mer出现的次数(叫K-mer的深度)
) G1 O8 z1 U, Q8 j' v3、统计相同深度出现的次数(叫深度的频数)8 P; c- `9 k5 w1 h- ]9 M# l1 N! Z
4、作深度与深度的频数的图, \" d7 l! t1 F" ~8 s

" n( K& s) F$ D  Z/ {' ]假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值). J  m2 Y0 C% m8 }& p" u
5 s6 H. W# b( p9 O, ?: c3 [: b
我的问题:
% u! ^3 f2 c) T& _5 Y在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。/ I9 S0 d8 w$ r. I( K$ I+ Y( J
那么,4 `' l, D1 [0 s$ O& `3 K' i; }
1、这样的图是符合什么数学公式了?
. d% V; [2 e& k* _! B2、能否区分出基因组中重复的区域?
  a8 \2 k" ^+ z1 r' @* `3 L, F# Z
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
. o% s/ K* i. o; K那么,
/ M' d9 x' ~, a/ P! S" Z/ D+ h1、这个可以用数学公式表示吗?* i) _) @2 A- s( ]" Y* _. A
2、能否区分出污染的数据?, O) \  o3 P( P& g/ r
9 v2 `/ N" r: X) ?0 x  x
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)- l. X" n  m) M5 m

1 I: W# v. _! \" T/ ]
" @, ]# N% m7 c3 v7 Z自我介绍0 U7 I9 ]1 E9 ~  E7 ]8 X
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
4 Q+ l: G  m4 B7 X6 s: R) A
" [' R2 q: b# F  G1 I希望得到数学同志们的帮助,' i$ H6 g; l/ S9 F, w# O
我的邮箱是:jingyc01@163.com,qq是511781820 k/ H3 A) f0 ?5 e7 v
7 c' c3 P6 u8 V) {' B
1 K5 q% b- B' s: C2 t

  J+ l; `- q. p# ^
作者: matdrchen    时间: 2010-9-7 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~  
作者: Agnes2_3_4_5_6    时间: 2010-9-7 20:49
a~帮顶~先~!!
作者: yjh2010    时间: 2010-9-7 23:24
先  支持一个!
作者: madiostudy    时间: 2010-9-8 08:00
强人,佩服死了。呵呵,不错啊
作者: chuchumaolu    时间: 2010-9-8 08:52
求高人指点,难道中国真的没有搞数学的
作者: china_chinese    时间: 2010-9-8 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: class77787    时间: 2010-9-8 15:00
顶顶更健康,越顶吃的越香。
作者: wenfeng018    时间: 2010-9-8 20:00
我要把这个帖子一直往上顶,往上顶!
作者: poipoi    时间: 2010-9-9 08:00
我要把这个帖子一直往上顶,往上顶!
作者: xinyu_1314_1981    时间: 2010-9-9 08:00
呵呵 大家好奇嘛 来观看下~~~~  
作者: zhijun88    时间: 2010-9-9 12:00
留个脚印```````
作者: yuro    时间: 2010-9-9 15:00
试试运气啦~~~~~~~~~~~
作者: zys402    时间: 2010-9-9 20:00
试试运气啦~~~~~~~~~~~
作者: 两个人    时间: 2010-9-9 20:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
作者: chuchumaolu    时间: 2010-9-9 20:35
不知道楼上什么意思,我是想大家求解问题哦,这个在我们实际工作中经常遇到,难道这个也有病吗?
作者: liujunliujun_19    时间: 2010-9-10 08:00
鉴定完毕!  
作者: huzh369    时间: 2010-9-10 11:39
顶顶更健康,越顶吃的越香。
作者: amocilin    时间: 2010-9-10 11:51
我要把这个帖子一直往上顶,往上顶!
作者: lihe    时间: 2010-9-10 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: BMSHAO    时间: 2010-9-10 15:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
作者: 双子座    时间: 2010-9-10 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: jjjjpp760    时间: 2010-9-11 08:00
我要把这个帖子一直往上顶,往上顶!
作者: 天下无双    时间: 2010-9-11 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: liuwei    时间: 2010-9-11 15:00
强烈支持。楼主万岁
作者: jixue    时间: 2010-9-11 20:00
哦~~
作者: liujunliujun_19    时间: 2010-9-12 08:00
强烈支持。楼主万岁
作者: hanslei    时间: 2010-9-12 12:00
留个脚印```````
作者: chenzhiyongdlut    时间: 2010-9-12 15:01
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: likaiwudi    时间: 2010-9-12 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: alex_syh    时间: 2010-9-13 08:00
我回不抢呢 考虑再三 还是不抢了吧 ^_^
作者: agsmillboy    时间: 2010-9-13 12:00
鉴定完毕!  
作者: hiv    时间: 2010-9-13 15:00
试试运气啦~~~~~~~~~~~
作者: DQLZH    时间: 2010-9-13 20:00
哦~~
作者: beckhamly27    时间: 2010-9-14 12:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~  
作者: timtianma    时间: 2010-9-14 15:00
留个脚印```````
作者: foremanchen    时间: 2010-9-14 20:00
留个脚印```````
作者: xiaoxq    时间: 2010-9-15 12:00
偶的天啊!这是什么样的贴子呢?
作者: 镜花水月    时间: 2010-9-15 15:00
强人,佩服死了。呵呵,不错啊
作者: tjliang_007    时间: 2010-9-15 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~  
作者: fengge    时间: 2010-9-15 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: wds315    时间: 2010-9-16 12:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
作者: 不学无术    时间: 2010-9-16 15:00
哦~~
作者: SDHZTAO    时间: 2010-9-16 20:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: chuchumaolu    时间: 2010-9-17 13:43
后面我发现了,我觉得很难的东西,其实别人早就做处理了,kmer分析这个东西是落后的东西呀,只是有些数学关系证明还是很有意思,
作者: chuchumaolu    时间: 2010-11-28 10:34
前两天我和同事讨论了测序错误的问题,发现在测序错误的部分和测序正确的部分不是简单的的叠加,很复杂,所以有那位高人指点一下,我们一起研究。
作者: 禾木星宸    时间: 2011-3-7 17:13
K-mer分析来评估深度确实有这个问题,就算是单峰,估算值和真实值也有偏差。最近我也刚入手开始做基因组的分析,很多自己也不懂呐




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5