数学建模社区-数学中国

标题: 关于泊松的问题(生物信息学的一个问题扩展) [打印本页]

作者: chuchumaolu    时间: 2010-9-7 18:35
标题: 关于泊松的问题(生物信息学的一个问题扩展)
实际问题是这样的:# s( K# P4 b! Y. v+ c. G, N
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
6 |" x5 |# M& G; l4 G. X
9 V" [) `  S  Y2 l  K2 p$ l/ V概念解释:
2 Y$ m% e: q9 A9 B* nreads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
9 Z) G) }. q" ~: L! V6 o测序深度:测序的reads的总大小 /基因组大小,叫测序深度4 O$ V! s: l3 ^# a
" c  O; P5 E" U7 U
之前,生物信息估计基因组大小的方法
3 q" a* y5 Y. K7 S' J" L$ {我的实验过程是这样的
" ?( }2 J( O! X$ j# k* _  E: O, d; A
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
5 B/ v& ?4 C* R9 g  e) G2、统计相同K-mer出现的次数(叫K-mer的深度)6 T) T* V- x% L8 g
3、统计相同深度出现的次数(叫深度的频数)+ k% h% E/ H/ z" }
4、作深度与深度的频数的图0 D7 D* M& S  j
, C0 s# `7 B' k5 b
假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)1 L# z  F- O( M$ o% d! {
& O' Z# M' e: D5 m
我的问题:
6 D0 j  F9 l* g1 v: o' m- K, k在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
- c  V' d! W5 H5 z* @# a) g7 F. \! n那么,& ?% @6 B7 T& P6 ?
1、这样的图是符合什么数学公式了?3 ^2 A  G4 e+ U5 X$ G. d7 w
2、能否区分出基因组中重复的区域?5 G+ K8 |2 F; p% _. f# T& f
5 l- c% \; ]/ r
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
8 q$ F; c! k' t# ~1 ~那么,3 k" d2 ~" H) e: @( i
1、这个可以用数学公式表示吗?
( h# v0 y8 |( L+ s8 ^- _2、能否区分出污染的数据?. _% M8 x3 H! n( v4 \8 Q& X+ M

8 H8 E7 c0 u' S3 t$ o# o第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)/ t7 r* M* `9 v0 B8 R% ?& J$ [# ]
3 D, ^3 Z1 [/ g5 E& ]0 j
7 Q1 ^. E9 b7 ?
自我介绍% ^* Y+ Z" @& W
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。5 k: ^1 s4 e, C7 R! u

9 q5 B/ y$ c3 _希望得到数学同志们的帮助,
) c9 x$ b5 l: I# q' \我的邮箱是:jingyc01@163.com,qq是51178182( T1 A- D! Y2 ]& x! S% D" y, y5 \4 n

* {; l- w% L5 |% J
, u* `& H+ `; @
! p  k7 l1 s  J; h( l+ t) E5 ^
作者: matdrchen    时间: 2010-9-7 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~  
作者: Agnes2_3_4_5_6    时间: 2010-9-7 20:49
a~帮顶~先~!!
作者: yjh2010    时间: 2010-9-7 23:24
先  支持一个!
作者: madiostudy    时间: 2010-9-8 08:00
强人,佩服死了。呵呵,不错啊
作者: chuchumaolu    时间: 2010-9-8 08:52
求高人指点,难道中国真的没有搞数学的
作者: china_chinese    时间: 2010-9-8 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: class77787    时间: 2010-9-8 15:00
顶顶更健康,越顶吃的越香。
作者: wenfeng018    时间: 2010-9-8 20:00
我要把这个帖子一直往上顶,往上顶!
作者: poipoi    时间: 2010-9-9 08:00
我要把这个帖子一直往上顶,往上顶!
作者: xinyu_1314_1981    时间: 2010-9-9 08:00
呵呵 大家好奇嘛 来观看下~~~~  
作者: zhijun88    时间: 2010-9-9 12:00
留个脚印```````
作者: yuro    时间: 2010-9-9 15:00
试试运气啦~~~~~~~~~~~
作者: zys402    时间: 2010-9-9 20:00
试试运气啦~~~~~~~~~~~
作者: 两个人    时间: 2010-9-9 20:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
作者: chuchumaolu    时间: 2010-9-9 20:35
不知道楼上什么意思,我是想大家求解问题哦,这个在我们实际工作中经常遇到,难道这个也有病吗?
作者: liujunliujun_19    时间: 2010-9-10 08:00
鉴定完毕!  
作者: huzh369    时间: 2010-9-10 11:39
顶顶更健康,越顶吃的越香。
作者: amocilin    时间: 2010-9-10 11:51
我要把这个帖子一直往上顶,往上顶!
作者: lihe    时间: 2010-9-10 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: BMSHAO    时间: 2010-9-10 15:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
作者: 双子座    时间: 2010-9-10 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: jjjjpp760    时间: 2010-9-11 08:00
我要把这个帖子一直往上顶,往上顶!
作者: 天下无双    时间: 2010-9-11 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: liuwei    时间: 2010-9-11 15:00
强烈支持。楼主万岁
作者: jixue    时间: 2010-9-11 20:00
哦~~
作者: liujunliujun_19    时间: 2010-9-12 08:00
强烈支持。楼主万岁
作者: hanslei    时间: 2010-9-12 12:00
留个脚印```````
作者: chenzhiyongdlut    时间: 2010-9-12 15:01
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: likaiwudi    时间: 2010-9-12 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: alex_syh    时间: 2010-9-13 08:00
我回不抢呢 考虑再三 还是不抢了吧 ^_^
作者: agsmillboy    时间: 2010-9-13 12:00
鉴定完毕!  
作者: hiv    时间: 2010-9-13 15:00
试试运气啦~~~~~~~~~~~
作者: DQLZH    时间: 2010-9-13 20:00
哦~~
作者: beckhamly27    时间: 2010-9-14 12:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~  
作者: timtianma    时间: 2010-9-14 15:00
留个脚印```````
作者: foremanchen    时间: 2010-9-14 20:00
留个脚印```````
作者: xiaoxq    时间: 2010-9-15 12:00
偶的天啊!这是什么样的贴子呢?
作者: 镜花水月    时间: 2010-9-15 15:00
强人,佩服死了。呵呵,不错啊
作者: tjliang_007    时间: 2010-9-15 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~  
作者: fengge    时间: 2010-9-15 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: wds315    时间: 2010-9-16 12:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
作者: 不学无术    时间: 2010-9-16 15:00
哦~~
作者: SDHZTAO    时间: 2010-9-16 20:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: chuchumaolu    时间: 2010-9-17 13:43
后面我发现了,我觉得很难的东西,其实别人早就做处理了,kmer分析这个东西是落后的东西呀,只是有些数学关系证明还是很有意思,
作者: chuchumaolu    时间: 2010-11-28 10:34
前两天我和同事讨论了测序错误的问题,发现在测序错误的部分和测序正确的部分不是简单的的叠加,很复杂,所以有那位高人指点一下,我们一起研究。
作者: 禾木星宸    时间: 2011-3-7 17:13
K-mer分析来评估深度确实有这个问题,就算是单峰,估算值和真实值也有偏差。最近我也刚入手开始做基因组的分析,很多自己也不懂呐




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5