- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:; Y. G2 w' \9 z" l. X/ I
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?7 e+ {' `9 f) |+ _$ X
3 b/ y G5 |, ~概念解释:, r+ U: m' i' N, x! |
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
) L" v1 l2 i5 V/ N0 u; t9 l& o! K测序深度:测序的reads的总大小 /基因组大小,叫测序深度6 `& E' \1 p$ Q6 P0 v) l
* z4 a4 U- O, z0 D a, v; W1 F之前,生物信息估计基因组大小的方法
% `! q4 ~' `" L2 e2 i我的实验过程是这样的8 q- _! b( Y% V. G
2 b0 v2 C. ~( x) i+ I6 R$ o) k7 E. Z
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
9 b. r9 e8 R7 f, b% Z( C; t9 }2、统计相同K-mer出现的次数(叫K-mer的深度)
* q+ O; y& \: O0 q3、统计相同深度出现的次数(叫深度的频数)0 T; W/ \- P9 t% o
4、作深度与深度的频数的图5 b( p$ A3 l7 o$ O( k
9 q! y7 a' @/ O4 r0 r
假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)
6 o1 ]% E' }9 x6 M3 c/ G
8 h) t/ _* n3 u) S/ Z我的问题:, J, Z! y& N4 y. l. ?! Y& N
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
, v6 n! i+ N! N* S5 M% Z那么,1 D5 g7 Q9 b& Y" g6 J6 X$ j
1、这样的图是符合什么数学公式了?& M8 R/ T, ]- P
2、能否区分出基因组中重复的区域?4 j( ?; _- K3 j; j1 O
( a, L3 ]2 @7 x; j另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。3 E& w4 O$ i) V. k# U
那么,3 {) G, q; b% h+ Q9 Z
1、这个可以用数学公式表示吗? `9 C) h- b& n4 Q
2、能否区分出污染的数据?) A/ |( V, @* R, ?
, @2 _# p# B, H$ A& [
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
( @. f$ m4 q- @2 y+ S& K& z* i1 x, x# L
7 q7 j! G- R! W自我介绍
% [$ h7 ~. y, L4 U/ y. P) ]5 Q我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
7 ^; {: e2 m4 y+ x
3 Y. |: m- B e$ k" c5 {& w希望得到数学同志们的帮助,
& G# P, I; r) s" m( w {1 }& l我的邮箱是:jingyc01@163.com,qq是51178182$ _1 N& V9 R$ e5 a
2 ^- J3 y( u# k8 A, i
k X- [% {9 Y4 m5 }0 \6 j1 _1 y( F( \- v: c
|
zan
|