数学建模社区-数学中国
标题:
关于泊松的问题(生物信息学的一个问题扩展)
[打印本页]
作者:
chuchumaolu
时间:
2010-9-7 18:35
标题:
关于泊松的问题(生物信息学的一个问题扩展)
实际问题是这样的:
2 j, N0 T. O m5 ~, `: l
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
* I! |0 v2 M+ M* F4 c4 H5 J# F
3 v" N3 `( K3 w6 g' S# x3 J$ ^. B. L
概念解释:
+ f/ }. d @* ^! Q1 K
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
9 g/ r# J9 t" f
测序深度:测序的reads的总大小 /基因组大小,叫测序深度
6 c9 i" a) _3 d% \) N, V
, Q) ^2 V$ \" N3 ]5 }# N6 J
之前,生物信息估计基因组大小的方法
+ o, V7 k; S2 N4 M* ?
我的实验过程是这样的
5 M8 y J$ g0 k* { R& q, ^
! r( \) _' t& O- _
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
/ O. R6 B6 u+ W
2、统计相同K-mer出现的次数(叫K-mer的深度)
) G1 O8 z1 U, Q8 j' v
3、统计相同深度出现的次数(叫深度的频数)
8 P; c- `9 k5 w1 h- ]9 M# l1 N! Z
4、作深度与深度的频数的图
, \" d7 l! t1 F" ~8 s
" n( K& s) F$ D Z/ {' ]
假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)
. J m2 Y0 C% m8 }& p" u
5 s6 H. W# b( p9 O, ?: c3 [: b
我的问题:
% u! ^3 f2 c) T& _5 Y
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
/ I9 S0 d8 w$ r. I( K$ I+ Y( J
那么,
4 `' l, D1 [0 s$ O& `3 K' i; }
1、这样的图是符合什么数学公式了?
. d% V; [2 e& k* _! B
2、能否区分出基因组中重复的区域?
a8 \2 k" ^+ z
1 r' @* `3 L, F# Z
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
. o% s/ K* i. o; K
那么,
/ M' d9 x' ~, a/ P! S" Z/ D+ h
1、这个可以用数学公式表示吗?
* i) _) @2 A- s( ]" Y* _. A
2、能否区分出污染的数据?
, O) \ o3 P( P& g/ r
9 v2 `/ N" r: X) ?0 x x
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
- l. X" n m) M5 m
1 I: W# v. _! \" T/ ]
" @, ]# N% m7 c3 v7 Z
自我介绍
0 U7 I9 ]1 E9 ~ E7 ]8 X
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
4 Q+ l: G m4 B7 X6 s: R) A
" [' R2 q: b# F G1 I
希望得到数学同志们的帮助,
' i$ H6 g; l/ S9 F, w# O
我的邮箱是:
jingyc01@163.com
,qq是51178182
0 k/ H3 A) f0 ?5 e7 v
7 c' c3 P6 u8 V) {' B
1 K5 q% b- B' s: C2 t
J+ l; `- q. p# ^
作者:
matdrchen
时间:
2010-9-7 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~
作者:
Agnes2_3_4_5_6
时间:
2010-9-7 20:49
a~帮顶~先~!!
作者:
yjh2010
时间:
2010-9-7 23:24
先 支持一个!
作者:
madiostudy
时间:
2010-9-8 08:00
强人,佩服死了。呵呵,不错啊
作者:
chuchumaolu
时间:
2010-9-8 08:52
求高人指点,难道中国真的没有搞数学的
作者:
china_chinese
时间:
2010-9-8 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者:
class77787
时间:
2010-9-8 15:00
顶顶更健康,越顶吃的越香。
作者:
wenfeng018
时间:
2010-9-8 20:00
我要把这个帖子一直往上顶,往上顶!
作者:
poipoi
时间:
2010-9-9 08:00
我要把这个帖子一直往上顶,往上顶!
作者:
xinyu_1314_1981
时间:
2010-9-9 08:00
呵呵 大家好奇嘛 来观看下~~~~
作者:
zhijun88
时间:
2010-9-9 12:00
留个脚印```````
作者:
yuro
时间:
2010-9-9 15:00
试试运气啦~~~~~~~~~~~
作者:
zys402
时间:
2010-9-9 20:00
试试运气啦~~~~~~~~~~~
作者:
两个人
时间:
2010-9-9 20:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。
作者:
chuchumaolu
时间:
2010-9-9 20:35
不知道楼上什么意思,我是想大家求解问题哦,这个在我们实际工作中经常遇到,难道这个也有病吗?
作者:
liujunliujun_19
时间:
2010-9-10 08:00
鉴定完毕!
作者:
huzh369
时间:
2010-9-10 11:39
顶顶更健康,越顶吃的越香。
作者:
amocilin
时间:
2010-9-10 11:51
我要把这个帖子一直往上顶,往上顶!
作者:
lihe
时间:
2010-9-10 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者:
BMSHAO
时间:
2010-9-10 15:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。
作者:
双子座
时间:
2010-9-10 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者:
jjjjpp760
时间:
2010-9-11 08:00
我要把这个帖子一直往上顶,往上顶!
作者:
天下无双
时间:
2010-9-11 12:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者:
liuwei
时间:
2010-9-11 15:00
强烈支持。楼主万岁
作者:
jixue
时间:
2010-9-11 20:00
哦~~
作者:
liujunliujun_19
时间:
2010-9-12 08:00
强烈支持。楼主万岁
作者:
hanslei
时间:
2010-9-12 12:00
留个脚印```````
作者:
chenzhiyongdlut
时间:
2010-9-12 15:01
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者:
likaiwudi
时间:
2010-9-12 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者:
alex_syh
时间:
2010-9-13 08:00
我回不抢呢 考虑再三 还是不抢了吧 ^_^
作者:
agsmillboy
时间:
2010-9-13 12:00
鉴定完毕!
作者:
hiv
时间:
2010-9-13 15:00
试试运气啦~~~~~~~~~~~
作者:
DQLZH
时间:
2010-9-13 20:00
哦~~
作者:
beckhamly27
时间:
2010-9-14 12:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~
作者:
timtianma
时间:
2010-9-14 15:00
留个脚印```````
作者:
foremanchen
时间:
2010-9-14 20:00
留个脚印```````
作者:
xiaoxq
时间:
2010-9-15 12:00
偶的天啊!这是什么样的贴子呢?
作者:
镜花水月
时间:
2010-9-15 15:00
强人,佩服死了。呵呵,不错啊
作者:
tjliang_007
时间:
2010-9-15 20:00
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~
作者:
fengge
时间:
2010-9-15 20:00
声明一下:本人看贴和回贴的规则,好贴必看,精华贴必回。
作者:
wds315
时间:
2010-9-16 12:00
我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。
作者:
不学无术
时间:
2010-9-16 15:00
哦~~
作者:
SDHZTAO
时间:
2010-9-16 20:00
楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
作者:
chuchumaolu
时间:
2010-9-17 13:43
后面我发现了,我觉得很难的东西,其实别人早就做处理了,kmer分析这个东西是落后的东西呀,只是有些数学关系证明还是很有意思,
作者:
chuchumaolu
时间:
2010-11-28 10:34
前两天我和同事讨论了测序错误的问题,发现在测序错误的部分和测序正确的部分不是简单的的叠加,很复杂,所以有那位高人指点一下,我们一起研究。
作者:
禾木星宸
时间:
2011-3-7 17:13
K-mer分析来评估深度确实有这个问题,就算是单峰,估算值和真实值也有偏差。最近我也刚入手开始做基因组的分析,很多自己也不懂呐
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5