- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:
# i6 w" }. X# h+ M/ Z. B在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
( |' B8 i. h' ]+ u, Y6 [2 \" @) G, l, U! |. h Y; L4 E* |4 { j4 \
概念解释:9 O Z9 _; T6 F
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
* a% U" z7 M7 v测序深度:测序的reads的总大小 /基因组大小,叫测序深度
& r4 b8 c9 E" h) B- t4 S+ m6 y* x
6 O) O5 O' ~4 r之前,生物信息估计基因组大小的方法3 ^/ ^/ i2 E1 K8 n
我的实验过程是这样的
! Q) A# b4 _% F0 t5 v; r6 e$ r( x/ s- P: A% e0 i8 C2 j; n8 m
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
K: g3 z( a* V" D! V2、统计相同K-mer出现的次数(叫K-mer的深度)& B: h. h2 {3 X# z; v2 M" f
3、统计相同深度出现的次数(叫深度的频数)
* Y& L! g, y& v* O4、作深度与深度的频数的图6 F' r3 f; J% X$ n. ^* a
) Y6 _8 w2 Q6 a, Q' W# c$ r8 L5 j c假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)
; ]. t1 ~" h& ?% p: p3 d) u
2 t: u6 v( p4 s, h" @# h我的问题:
5 _. a O! i# `" F在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
* h2 r( K) j( z' Q2 B0 l那么,$ ^* ^6 n9 s4 M
1、这样的图是符合什么数学公式了?* s1 s+ ^: `3 t$ [8 s% k
2、能否区分出基因组中重复的区域?
, ]& G% w5 `, h: Q j& `' f! @0 @, N# U# W9 B
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。3 M1 [" \' g/ R8 }0 F: }
那么,
% h8 x; n- l# u0 Q0 o1、这个可以用数学公式表示吗?
, L" T' U* {8 R( U2、能否区分出污染的数据?. O* b# O3 U7 D+ `5 b
7 F g5 R7 K# ]. y! E
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)) Y7 p( V, @# V( y
* K( |1 Z3 ~6 ~) u3 `! k
' Q* H+ ]1 F" c# b" s8 q$ `自我介绍% | N( r) Z8 l1 Y# ~* I. V
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
& \7 u; U/ D/ `3 ^3 T; b6 E% n3 p1 H) G" d3 E6 i
希望得到数学同志们的帮助,4 v. z; Z9 G3 W6 O6 g
我的邮箱是:jingyc01@163.com,qq是51178182
! w4 c U% p+ s7 r) @; ]) W. P }- K
" R3 P" N5 o6 h. ~$ e P0 p1 S1 s$ E6 k9 f: t- r
' X+ z+ E) p4 s; B' ?/ H
|
zan
|