- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:
* K$ j( |. S m在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
; ^& x" c. c/ g7 f P1 ]9 G. z& p) _0 M+ a4 A; f' X) ~+ [ r. s
概念解释:! t1 B" a8 ^1 E
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads( A" W8 {$ P2 e& x% Y
测序深度:测序的reads的总大小 /基因组大小,叫测序深度- C* f7 [$ z& k% U' n t, k) I" G
; `' l4 x2 k7 S/ i之前,生物信息估计基因组大小的方法, s! ~% m2 R9 r) t+ V
我的实验过程是这样的
8 g# Y5 Q: e' X" g% j7 t+ o. m5 q- r
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT7 }. g3 v% R2 \3 U$ k& D$ |
2、统计相同K-mer出现的次数(叫K-mer的深度). D% K" M) P/ A' C! y+ X
3、统计相同深度出现的次数(叫深度的频数)5 s) l. l' e3 j {. |! I
4、作深度与深度的频数的图
* r& y/ H, B" u; X0 p3 R7 K9 Q. v3 J" ]
假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)+ G" M# {1 J% b, W8 P1 {& @
# v: W8 i4 U: ?8 f6 K- n
我的问题:
; b$ k* g2 b# G$ z在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。( Y: N( y Z5 e4 d2 u5 s1 e _
那么,. E/ o, S! I1 W0 X5 K7 Z/ r9 T
1、这样的图是符合什么数学公式了?
, W' J. v) s [2、能否区分出基因组中重复的区域?
3 g! h6 _* p" X8 U: [
" f9 R& U0 G7 {/ E5 O0 _" {, A另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
, s% S+ B1 w1 k+ a# E那么,; [1 i& T- i# @ [0 p
1、这个可以用数学公式表示吗?
0 l4 X% D( ^# n3 v% F0 p8 S2、能否区分出污染的数据?; r: K- ?" o) O, \4 i2 y! {$ \
3 r" I$ M4 F# n& a) ~第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx), c! _& E0 X$ g/ l0 r6 j6 {
+ u( S. p9 V: f7 a1 v& ~3 }* H4 j1 S( P/ n6 {! [" J
自我介绍) J ~' v0 B' {" u4 r
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。9 [5 ?0 ~* J& ] D+ }
" h- V/ H- X6 n) l% _& n; o希望得到数学同志们的帮助,
# c2 j, }8 y, Y, ~- O$ C M我的邮箱是:jingyc01@163.com,qq是51178182
7 F3 |1 ]- G, j6 m* A: @$ W/ y
, R8 M+ Z N3 G* ~1 q5 O4 V
( C: b, C4 Y8 c, Q+ z K3 q |* L/ z# I+ e" M2 c
|
zan
|