- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:5 q& O- G) T& e4 r
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?% N; C% u/ q, `) l# _& Z
/ }! v3 q3 m7 l3 y$ `
概念解释:9 S. v! P, b6 Y! r9 D: B1 q" ^
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
) A6 I+ k$ v0 M3 O0 Q测序深度:测序的reads的总大小 /基因组大小,叫测序深度
. s2 a) y6 |: t# S, u/ S% T+ P5 J: {% H
之前,生物信息估计基因组大小的方法
m) A* l. B% W我的实验过程是这样的
u( X8 L) U( j5 I8 W. A) u; U" K- p2 j4 O) S1 e2 }
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT" h3 Q9 P# e n0 c9 M. U! x' S* J
2、统计相同K-mer出现的次数(叫K-mer的深度). N, ~, t3 g ?4 G
3、统计相同深度出现的次数(叫深度的频数)
4 H% R5 d. x# f! [. D# M8 v. E' h* l4、作深度与深度的频数的图4 e5 C* b4 Z4 Q+ @; B
6 ` q/ ]% s/ s" G j2 j7 z假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)
, @/ i& ?2 g9 j1 f* W- a5 r% m- \( Q3 i+ K5 M3 |1 P5 ]
我的问题:0 S2 d1 b. ?- D$ ]
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
3 a3 c. X- x$ S4 |那么,
7 _* h0 D8 B$ \1、这样的图是符合什么数学公式了?
/ Q1 { P" P& Y+ y1 X2、能否区分出基因组中重复的区域?
0 w. d0 ~6 }% e# ~9 {* C# {, e
: b) n: m) ]) s. }( v) t* \3 }另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
, Z$ s2 u* b6 L# [& x那么,
$ k% \/ S2 U# V4 z; v1、这个可以用数学公式表示吗?
2 ], d4 t2 ]! l2、能否区分出污染的数据?- _! D- z3 J( r* L5 g
* W [- s8 s r& _7 k- h6 g
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
# |) E1 T5 B1 f& L U! \/ {9 e% d% j, f' o
9 P6 T7 `! j: { v7 n% k2 q: p自我介绍, e! N0 F* {4 V0 Y( L' d6 G
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。- r- h. X, [- L+ ~! h" ]
1 U, q C8 Q9 I$ x
希望得到数学同志们的帮助,. V3 v! l$ I. H' { I5 \. F1 o
我的邮箱是:jingyc01@163.com,qq是511781827 j( h# t, X# s8 B0 ^
$ Y& b) w- v9 K% Z
4 a, T3 _3 D! {( Z; z) |
6 t! @% `) r! |& ~) |
|
zan
|