- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:, T! B1 W) C, N3 `1 }7 s" {
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?2 r/ |# n/ e n) }' s! t: L
6 _) ?3 s8 G& O' N概念解释:
8 K y5 n! Q5 @( {' areads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
& U3 I m3 d8 B2 O. o# A测序深度:测序的reads的总大小 /基因组大小,叫测序深度
8 V% I( }3 k% F3 u3 h; U+ h6 \: g6 [" G. L# q" G( O
之前,生物信息估计基因组大小的方法$ Q, O3 j. Q6 |: X4 f
我的实验过程是这样的) ] |% {* H5 t+ a* k
$ I, o7 u/ h% V9 |& H; s8 |9 ^0 g" X1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
0 _+ K2 Q1 ^+ N2、统计相同K-mer出现的次数(叫K-mer的深度)/ d) X( W/ K* ]$ }0 f. `
3、统计相同深度出现的次数(叫深度的频数)" b; N3 p% O2 l d$ R
4、作深度与深度的频数的图
2 z3 }( n, c, `' C* T/ @! U c. p/ P5 o, Z: {5 w4 }9 u
假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)
9 x5 x& Y) G5 M5 d
6 q+ t) F: P; O1 j# [% O* y我的问题:
6 I) s# z2 |) g! [/ u在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
2 [: X+ I: u; f B+ r: H那么,
}& l9 q" b% d! X; e1、这样的图是符合什么数学公式了?
+ M, t* e8 i$ D2、能否区分出基因组中重复的区域?9 J2 U4 y& Z d( c& [0 F7 S9 m
. @; M- D5 c6 o! V另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。, }( Y8 w. c0 q
那么,
: h8 |/ J( S, D+ e* I& Z1 M" `1、这个可以用数学公式表示吗?
1 l, O" \4 P2 c1 K# _3 H) v2、能否区分出污染的数据?
6 x, b ?7 ^% U. D: v/ E- I/ z1 L
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
8 G! J( ~( `$ m
" L. k( D" F6 D# P* W4 f/ G; M8 K9 t$ X
自我介绍6 |( f) _0 K* o% b! w ]% q) O: g
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
& m! W9 \- h7 }2 h: B: X/ L" S- o* H, [( Q0 r- g, _7 Q
希望得到数学同志们的帮助,
3 B/ j1 z; @2 _/ B我的邮箱是:jingyc01@163.com,qq是51178182
, z, K- Y u; P
o! ?3 N$ C/ t; O: U' a9 W5 ^
7 D" G( l; t8 G) ^
2 T" A0 U( U- P0 I5 S7 S X& u |
zan
|