- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:
5 z8 Y2 |+ `4 ]% \1 U: t在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?7 f4 \4 ~, w% G
5 h1 W: ^5 v \0 g$ f8 m: ?
概念解释:
$ R. K/ T+ X+ X; w) o# ^4 ureads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
6 ~3 ^, t0 e' z测序深度:测序的reads的总大小 /基因组大小,叫测序深度
8 B0 t$ d& Y5 e+ D: W/ f4 z+ d3 r+ R9 c( t' m
之前,生物信息估计基因组大小的方法% R. I6 y. A8 y
我的实验过程是这样的
8 n* d$ a" A$ q% S7 G9 s
8 `. A# y4 h0 e7 V( Q1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
* o4 B: Z# b+ X% p, T2、统计相同K-mer出现的次数(叫K-mer的深度)
' R1 k6 m4 S- |% S' }3、统计相同深度出现的次数(叫深度的频数)
1 ~ r" l# q/ ?0 D4、作深度与深度的频数的图+ {, n9 Q' c2 _6 n9 `3 b' `
9 E% L8 i# z# @' _7 L' V假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)
, m7 ~% n0 E e" M# V( A, m) M$ E2 J0 N
' u3 |( O R1 o I) V) R我的问题:# Z! T( i* B9 ^
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。" N5 X/ ~' p Y, D
那么,& F: i2 e* H8 e1 n
1、这样的图是符合什么数学公式了?6 ~) y! y# d" W( G
2、能否区分出基因组中重复的区域?
9 `7 f3 H: v2 n, S% P! d g5 x5 G/ y8 C0 I$ g0 [! b% f
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。7 f" i2 L4 \2 y( s( [0 T* y5 G, [: ]
那么,
* E# W% N0 L; E4 ~; w& t" @1、这个可以用数学公式表示吗?1 I! j0 \3 j z# N. I
2、能否区分出污染的数据?
6 B: g% `. m N, R& s+ _. ~$ [
9 W/ w4 a% s$ @7 Q, v第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
( h* B& f" R' Q" M( I+ m# h& t' W
0 A5 u( I5 |( }
自我介绍
/ j+ M. ^4 x+ S; P; X+ ?我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。6 @) g" E" v' D% M. Q. i
% }9 U" j7 I0 N" D希望得到数学同志们的帮助,
* m( j- O' O# Y. I. R我的邮箱是:jingyc01@163.com,qq是51178182# v+ Q& v. Y {" s
7 A; q" J* n/ u( D8 m
9 h4 B% I( j9 U* A0 h% g) n+ T* s) a4 I
|
zan
|