- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:
: m. j- N2 g9 y在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
0 f( X) N: y" N% O; E" u% y0 E; s, Q4 F' N0 ]
概念解释:$ K1 m5 O/ u: [- {/ @: b
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
$ W6 W' f6 p' f3 C8 _( c测序深度:测序的reads的总大小 /基因组大小,叫测序深度
8 n5 c/ y) }6 b4 |: d& v/ p) @' @# D0 p- G
之前,生物信息估计基因组大小的方法8 k: M+ c7 v6 ~! `
我的实验过程是这样的, l G& Q7 o1 ?6 @+ C
6 n# j( b7 R$ Q: ?4 J& f9 S1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
+ j/ ]9 R4 I/ S F( Q% w2、统计相同K-mer出现的次数(叫K-mer的深度)
. C5 b0 `9 D0 O4 v" ^3、统计相同深度出现的次数(叫深度的频数). Y8 W$ Z6 h0 D3 o" g, h5 S% {& I: B
4、作深度与深度的频数的图. U7 S7 k: ?+ {1 a0 ?
6 d! F% ^. X e4 X
假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)
( `3 e9 E+ e0 U1 f9 v5 `% Z' R, I/ }+ M+ d4 U. P- ~
我的问题:) E* t& G- V& w: {6 |
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
, L/ t) B7 ?: A5 c那么,
- P) [. d8 H8 Q5 w: D! W! k: L3 j1、这样的图是符合什么数学公式了?
8 e# b) K/ S2 U* k3 Z2、能否区分出基因组中重复的区域?% t3 O* K S5 v4 P' k
8 Y: n+ @& o; \
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。8 k% e. G- M0 U. n
那么,1 J7 B. w6 J* \' O
1、这个可以用数学公式表示吗?. |8 G. D+ G7 `6 Q0 Y" a
2、能否区分出污染的数据?
6 d8 L4 B, ]/ Z5 B: a9 u% q; C4 }0 t, H, u- P, p# p; D; o, {
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
- P# ?6 P$ t+ p9 [3 ^9 P; m
+ k0 T n B+ \- c
( k/ T- X' [2 c* d自我介绍: Y I+ F$ X9 S3 v2 S1 p% D
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
) r& B, a* f9 T O
% \" }, ^8 Y5 e0 o1 Y7 x希望得到数学同志们的帮助,: ~0 }' F2 z5 P
我的邮箱是:jingyc01@163.com,qq是51178182
" D; S) |) a6 x) q
- O/ X; N8 P! g( Z! w/ h. o/ v t0 ^+ z- `4 h
- l: `; d9 K+ {+ p. v |
zan
|