- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:
8 u& A3 Q6 a4 i在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?4 A: C, I8 C9 o5 }
( b4 e7 h) ~9 k1 t8 T( L# ~5 t9 W概念解释:
% O" _3 L8 }+ K+ v" j k7 Z% k) Oreads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads4 C/ X* ^1 u9 n1 h0 U1 b [
测序深度:测序的reads的总大小 /基因组大小,叫测序深度
2 i- w8 U$ X. a: A1 o4 B c! O
* b2 T+ o5 B4 r* k5 g+ \) C# ~6 z2 W; F之前,生物信息估计基因组大小的方法! a4 s7 Q* J7 z+ \, e! p
我的实验过程是这样的
, G! s3 Q: B' X7 `
9 W' }5 [0 I* `% S0 _# }" [9 q1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
( H8 q& z7 m9 A% c* S- |2、统计相同K-mer出现的次数(叫K-mer的深度)' |- @. g5 Y1 L( p
3、统计相同深度出现的次数(叫深度的频数)
2 ^, C0 {! L g4 ? R4、作深度与深度的频数的图6 K2 o( N/ r1 ~+ t- d. t. H
/ H- }' X% t! \/ `8 E假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)% [; k0 Q8 I; Y0 f4 d$ i
) J |# U& I- K+ v我的问题:
: A& i) e) {6 F& m+ H+ P5 K在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。( v. i1 P+ R4 A' ]- J4 R: x
那么,. H# X& S( @; O: X
1、这样的图是符合什么数学公式了?7 r5 A# h) Q F& j8 f
2、能否区分出基因组中重复的区域?9 F0 M% Q% N8 [( t( i; y/ w1 f( W
. v, ?& x( M) n+ `7 N6 ]- b
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
& c: x. \ T' o7 t6 x那么,
7 O5 B& w' P% b1 c4 W1、这个可以用数学公式表示吗?
5 X9 v) M. C _7 u2、能否区分出污染的数据?8 R3 Z; }, c/ F
, s) W9 Q2 ]' v/ s: t# G第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
. u6 I; E& _( S$ g
1 R0 }4 w$ {' O& M# N! I7 d
; l" n/ t0 N$ P2 F8 s' N3 j自我介绍
0 k' g3 N$ H' v我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。: J; K- U8 {1 o% |
$ `2 o4 `# E' ?: [2 y) B! d8 y5 {希望得到数学同志们的帮助,
, x- }/ N* D% ~: a6 Y/ p# h& Q我的邮箱是:jingyc01@163.com,qq是51178182+ n" W$ R" h( c/ C
5 J+ y- O% \; I! X' o
7 {! p* L8 j8 i4 Y7 S. y. u& `5 q7 L, o
|
zan
|