数学建模社区-数学中国
标题:
关于泊松的问题(生物信息学的一个问题扩展)
[打印本页]
作者:
chuchumaolu
时间:
2010-9-7 18:35
标题:
关于泊松的问题(生物信息学的一个问题扩展)
实际问题是这样的:
# s( K# P4 b! Y. v+ c. G, N
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
6 |" x5 |# M& G; l4 G. X
9 V" [) ` S Y2 l K2 p$ l/ V
概念解释:
2 Y$ m% e: q9 A9 B* n
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
9 Z) G) }. q" ~: L! V6 o
测序深度:测序的reads的总大小 /基因组大小,叫测序深度
4 O$ V! s: l3 ^# a
" c O; P5 E" U7 U
之前,生物信息估计基因组大小的方法
3 q" a* y5 Y. K7 S' J" L$ {
我的实验过程是这样的
" ?( }2 J( O! X
$ j# k* _ E: O, d; A
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
5 B/ v& ?4 C* R9 g e) G
2、统计相同K-mer出现的次数(叫K-mer的深度)
6 T) T* V- x% L8 g
3、统计相同深度出现的次数(叫深度的频数)
+ k% h% E/ H/ z" }
4、作深度与深度的频数的图
0 D7 D* M& S j
, C0 s# `7 B' k5 b
假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)
1 L# z F- O( M$ o% d! {
& O' Z# M' e: D5 m
我的问题:
6 D0 j F9 l* g1 v: o' m- K, k
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
- c V' d! W5 H5 z* @# a) g7 F. \! n
那么,
& ?% @6 B7 T& P6 ?
1、这样的图是符合什么数学公式了?
3 ^2 A G4 e+ U5 X$ G. d7 w
2、能否区分出基因组中重复的区域?
5 G+ K8 |2 F; p% _. f# T& f
5 l- c% \; ]/ r
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
8 q$ F; c! k' t# ~1 ~
那么,
3 k" d2 ~" H) e: @( i
1、这个可以用数学公式表示吗?
( h# v0 y8 |( L+ s8 ^- _
2、能否区分出污染的数据?
. _% M8 x3 H! n( v4 \8 Q& X+ M
8 H8 E7 c0 u' S3 t$ o# o
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
/ t7 r* M* `9 v0 B8 R% ?& J$ [# ]
3 D, ^3 Z1 [/ g5 E& ]0 j
7 Q1 ^. E9 b7 ?
自我介绍
% ^* Y+ Z" @& W
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
5 k: ^1 s4 e, C7 R! u
9 q5 B/ y$ c3 _
希望得到数学同志们的帮助,
) c9 x$ b5 l: I# q' \
我的邮箱是:
jingyc01@163.com
,qq是51178182
( T1 A- D! Y2 ]& x! S% D" y, y5 \4 n
* {; l- w% L5 |% J
, u* `& H+ `; @
! p k7 l1 s J; h( l+ t) E5 ^
作者:
matdrchen
时间:
2010-9-7 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~
作者:
Agnes2_3_4_5_6
时间:
2010-9-7 20:49
a~帮顶~先~!!
作者:
yjh2010
时间:
2010-9-7 23:24
先 支持一个!
作者:
madiostudy
时间:
2010-9-8 08:00
强人,佩服死了。呵呵,不错啊
作者:
chuchumaolu
时间:
2010-9-8 08:52
求高人指点,难道中国真的没有搞数学的
作者:
china_chinese
时间:
2010-9-8 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者:
class77787
时间:
2010-9-8 15:00
顶顶更健康,越顶吃的越香。
作者:
wenfeng018
时间:
2010-9-8 20:00
我要把这个帖子一直往上顶,往上顶!
作者:
poipoi
时间:
2010-9-9 08:00
我要把这个帖子一直往上顶,往上顶!
作者:
xinyu_1314_1981
时间:
2010-9-9 08:00
呵呵 大家好奇嘛 来观看下~~~~
作者:
zhijun88
时间:
2010-9-9 12:00
留个脚印```````
作者:
yuro
时间:
2010-9-9 15:00
试试运气啦~~~~~~~~~~~
作者:
zys402
时间:
2010-9-9 20:00
试试运气啦~~~~~~~~~~~
作者:
两个人
时间:
2010-9-9 20:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。
作者:
chuchumaolu
时间:
2010-9-9 20:35
不知道楼上什么意思,我是想大家求解问题哦,这个在我们实际工作中经常遇到,难道这个也有病吗?
作者:
liujunliujun_19
时间:
2010-9-10 08:00
鉴定完毕!
作者:
huzh369
时间:
2010-9-10 11:39
顶顶更健康,越顶吃的越香。
作者:
amocilin
时间:
2010-9-10 11:51
我要把这个帖子一直往上顶,往上顶!
作者:
lihe
时间:
2010-9-10 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者:
BMSHAO
时间:
2010-9-10 15:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。
作者:
双子座
时间:
2010-9-10 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者:
jjjjpp760
时间:
2010-9-11 08:00
我要把这个帖子一直往上顶,往上顶!
作者:
天下无双
时间:
2010-9-11 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者:
liuwei
时间:
2010-9-11 15:00
强烈支持。楼主万岁
作者:
jixue
时间:
2010-9-11 20:00
哦~~
作者:
liujunliujun_19
时间:
2010-9-12 08:00
强烈支持。楼主万岁
作者:
hanslei
时间:
2010-9-12 12:00
留个脚印```````
作者:
chenzhiyongdlut
时间:
2010-9-12 15:01
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者:
likaiwudi
时间:
2010-9-12 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者:
alex_syh
时间:
2010-9-13 08:00
我回不抢呢 考虑再三 还是不抢了吧 ^_^
作者:
agsmillboy
时间:
2010-9-13 12:00
鉴定完毕!
作者:
hiv
时间:
2010-9-13 15:00
试试运气啦~~~~~~~~~~~
作者:
DQLZH
时间:
2010-9-13 20:00
哦~~
作者:
beckhamly27
时间:
2010-9-14 12:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~
作者:
timtianma
时间:
2010-9-14 15:00
留个脚印```````
作者:
foremanchen
时间:
2010-9-14 20:00
留个脚印```````
作者:
xiaoxq
时间:
2010-9-15 12:00
偶的天啊!这是什么样的贴子呢?
作者:
镜花水月
时间:
2010-9-15 15:00
强人,佩服死了。呵呵,不错啊
作者:
tjliang_007
时间:
2010-9-15 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~
作者:
fengge
时间:
2010-9-15 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者:
wds315
时间:
2010-9-16 12:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。
作者:
不学无术
时间:
2010-9-16 15:00
哦~~
作者:
SDHZTAO
时间:
2010-9-16 20:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者:
chuchumaolu
时间:
2010-9-17 13:43
后面我发现了,我觉得很难的东西,其实别人早就做处理了,kmer分析这个东西是落后的东西呀,只是有些数学关系证明还是很有意思,
作者:
chuchumaolu
时间:
2010-11-28 10:34
前两天我和同事讨论了测序错误的问题,发现在测序错误的部分和测序正确的部分不是简单的的叠加,很复杂,所以有那位高人指点一下,我们一起研究。
作者:
禾木星宸
时间:
2011-3-7 17:13
K-mer分析来评估深度确实有这个问题,就算是单峰,估算值和真实值也有偏差。最近我也刚入手开始做基因组的分析,很多自己也不懂呐
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5