数学建模社区-数学中国

标题: 关于泊松的问题(生物信息学的一个问题扩展) [打印本页]

作者: chuchumaolu    时间: 2010-9-7 18:35
标题: 关于泊松的问题(生物信息学的一个问题扩展)
实际问题是这样的:0 `' m  r/ \6 [! Z8 a; Y
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?& i7 l% J+ Q) g( S2 K' c; [

" a( d) A" k/ x# z: Z概念解释:  @5 @" B5 |. I5 X0 b# J: S% M
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads( ?8 g  E& P6 C, z; w
测序深度:测序的reads的总大小 /基因组大小,叫测序深度' m9 J: F' o$ N: d& \

( U/ B$ j: }, J之前,生物信息估计基因组大小的方法7 I8 E; b9 x" |
我的实验过程是这样的
& v8 b* [+ e) d* J& c, y
2 F0 S3 \2 ?) f$ s; Y5 F6 A1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT6 Y5 r8 f9 q; G# h6 B3 d
2、统计相同K-mer出现的次数(叫K-mer的深度), N& U, K  I, z+ f' y
3、统计相同深度出现的次数(叫深度的频数)
  \" k" C$ q: g( M5 k3 j7 o5 E5 Z4、作深度与深度的频数的图
& C; G: U4 R1 R( L; }
$ S9 ^% w8 J+ |* |, I假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)7 }" G* E6 q7 Y$ ?
8 k  u, t1 p; `9 y; j- |
我的问题:" M/ F2 d/ ]* N1 B- u2 K' c
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
1 x' D) e4 k! e5 E' g6 j- P9 m那么,
- k- ^3 T% b! y  z6 g+ _1、这样的图是符合什么数学公式了?$ |4 P: v  a5 V% D, K4 [0 Y; g
2、能否区分出基因组中重复的区域?0 C" b- C) I2 @* C6 a
( s, }& w9 p- _$ J' r: w
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
  k6 ]; I6 x( L. H& ~那么,
' l+ w  r! G) D+ m1、这个可以用数学公式表示吗?
) V8 N( Z8 ^+ V0 T9 [5 m8 f2、能否区分出污染的数据?6 ^7 s% _- {3 k& _3 |

8 y9 I& C0 F5 H& {$ @第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
+ J* t# r6 Z. j4 n" x! }" o
- v. K% W9 Z' W+ n' L. `2 S
' G+ c0 W- Y4 |1 w" j' a' @' E自我介绍7 N" P2 j) I- f" x% _# _
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
6 L% H9 K  p0 j7 L! \  l7 e- N2 U/ m+ p5 c! O  M
希望得到数学同志们的帮助,8 A/ }2 q. l$ j4 t
我的邮箱是:jingyc01@163.com,qq是51178182
$ A9 J, Q6 ^% q: z  R+ R7 t
2 _) f1 q/ t! r& [, v# U* _0 B2 h
5 t% [" k3 G7 ~3 p4 ]5 _! c4 `, d; Y* Z) m/ h' `

作者: matdrchen    时间: 2010-9-7 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~  
作者: Agnes2_3_4_5_6    时间: 2010-9-7 20:49
a~帮顶~先~!!
作者: yjh2010    时间: 2010-9-7 23:24
先  支持一个!
作者: madiostudy    时间: 2010-9-8 08:00
强人,佩服死了。呵呵,不错啊
作者: chuchumaolu    时间: 2010-9-8 08:52
求高人指点,难道中国真的没有搞数学的
作者: china_chinese    时间: 2010-9-8 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: class77787    时间: 2010-9-8 15:00
顶顶更健康,越顶吃的越香。
作者: wenfeng018    时间: 2010-9-8 20:00
我要把这个帖子一直往上顶,往上顶!
作者: poipoi    时间: 2010-9-9 08:00
我要把这个帖子一直往上顶,往上顶!
作者: xinyu_1314_1981    时间: 2010-9-9 08:00
呵呵 大家好奇嘛 来观看下~~~~  
作者: zhijun88    时间: 2010-9-9 12:00
留个脚印```````
作者: yuro    时间: 2010-9-9 15:00
试试运气啦~~~~~~~~~~~
作者: zys402    时间: 2010-9-9 20:00
试试运气啦~~~~~~~~~~~
作者: 两个人    时间: 2010-9-9 20:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
作者: chuchumaolu    时间: 2010-9-9 20:35
不知道楼上什么意思,我是想大家求解问题哦,这个在我们实际工作中经常遇到,难道这个也有病吗?
作者: liujunliujun_19    时间: 2010-9-10 08:00
鉴定完毕!  
作者: huzh369    时间: 2010-9-10 11:39
顶顶更健康,越顶吃的越香。
作者: amocilin    时间: 2010-9-10 11:51
我要把这个帖子一直往上顶,往上顶!
作者: lihe    时间: 2010-9-10 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: BMSHAO    时间: 2010-9-10 15:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
作者: 双子座    时间: 2010-9-10 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: jjjjpp760    时间: 2010-9-11 08:00
我要把这个帖子一直往上顶,往上顶!
作者: 天下无双    时间: 2010-9-11 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: liuwei    时间: 2010-9-11 15:00
强烈支持。楼主万岁
作者: jixue    时间: 2010-9-11 20:00
哦~~
作者: liujunliujun_19    时间: 2010-9-12 08:00
强烈支持。楼主万岁
作者: hanslei    时间: 2010-9-12 12:00
留个脚印```````
作者: chenzhiyongdlut    时间: 2010-9-12 15:01
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: likaiwudi    时间: 2010-9-12 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: alex_syh    时间: 2010-9-13 08:00
我回不抢呢 考虑再三 还是不抢了吧 ^_^
作者: agsmillboy    时间: 2010-9-13 12:00
鉴定完毕!  
作者: hiv    时间: 2010-9-13 15:00
试试运气啦~~~~~~~~~~~
作者: DQLZH    时间: 2010-9-13 20:00
哦~~
作者: beckhamly27    时间: 2010-9-14 12:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~  
作者: timtianma    时间: 2010-9-14 15:00
留个脚印```````
作者: foremanchen    时间: 2010-9-14 20:00
留个脚印```````
作者: xiaoxq    时间: 2010-9-15 12:00
偶的天啊!这是什么样的贴子呢?
作者: 镜花水月    时间: 2010-9-15 15:00
强人,佩服死了。呵呵,不错啊
作者: tjliang_007    时间: 2010-9-15 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~  
作者: fengge    时间: 2010-9-15 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者: wds315    时间: 2010-9-16 12:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
作者: 不学无术    时间: 2010-9-16 15:00
哦~~
作者: SDHZTAO    时间: 2010-9-16 20:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者: chuchumaolu    时间: 2010-9-17 13:43
后面我发现了,我觉得很难的东西,其实别人早就做处理了,kmer分析这个东西是落后的东西呀,只是有些数学关系证明还是很有意思,
作者: chuchumaolu    时间: 2010-11-28 10:34
前两天我和同事讨论了测序错误的问题,发现在测序错误的部分和测序正确的部分不是简单的的叠加,很复杂,所以有那位高人指点一下,我们一起研究。
作者: 禾木星宸    时间: 2011-3-7 17:13
K-mer分析来评估深度确实有这个问题,就算是单峰,估算值和真实值也有偏差。最近我也刚入手开始做基因组的分析,很多自己也不懂呐




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5