- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:& N$ `& Q A8 t& Q7 R6 i! K
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
7 x& r: E' B; Q7 X9 M% I. U
. s; K9 j3 P5 A3 f概念解释:
" J/ G3 N1 P5 P. h! `reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads6 L. U+ y1 o4 \! u* {6 g5 {; V# z
测序深度:测序的reads的总大小 /基因组大小,叫测序深度* ?; {" `# n& G n4 `
& X% Q8 U" k, b' g之前,生物信息估计基因组大小的方法
3 b) i0 Y+ Z: A( [我的实验过程是这样的8 Z3 ]" A& I( O9 s; L: F
& `( D& M0 l1 G! q2 r2 d1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT' }9 t T6 j7 \2 q5 j1 M' b/ J
2、统计相同K-mer出现的次数(叫K-mer的深度); P; [) `+ l, C$ F4 W5 X
3、统计相同深度出现的次数(叫深度的频数)0 b$ Q& n: f2 g2 \% D" G L0 z7 P# P
4、作深度与深度的频数的图/ t/ n- m( O; r- `$ q( G
7 x# R( G; H; X( a- ]$ E" n假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)0 w7 r2 a4 y, S* m2 g) q9 j2 A* T
! A3 u; @- X V, i( m/ i$ N" U. e
我的问题:* s1 A% U& {& W3 y/ e' L9 [
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
- e; z! ^' }5 T0 j那么,
& \5 N/ A, W6 i6 d" M1、这样的图是符合什么数学公式了?
3 Q( n8 \* M# p3 {2、能否区分出基因组中重复的区域?
6 Z: H3 O: n1 z, j6 d+ \8 T
U. _9 g( c. s! z& A另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。5 w0 u4 M3 a& g, L
那么,
, M5 x' L, S8 q" H% q1、这个可以用数学公式表示吗?
3 {1 C; K: I3 Z( o9 m3 H' _. E7 j# F2、能否区分出污染的数据?
- X! L n# T5 N4 i5 _$ `
! M/ T# k! T9 q/ m第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
* d" I0 j7 |* F; S# ] C7 b4 m
( r, r2 @& w$ j ^( \$ P! F2 f* f8 o2 i5 p1 K, }
自我介绍! O+ I' X8 K$ H
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。% o) _& t. u& L& N# j! i6 m' Q
7 H% M. i* J, K
希望得到数学同志们的帮助,0 [2 p; Y$ B3 x' T* K0 r
我的邮箱是:jingyc01@163.com,qq是51178182/ u' O. O9 ]) n. v2 E
) Y# p' s' e7 ]" J
/ J; @* B2 v U1 E5 t' ~
( Q$ J# B {* X2 `5 i0 p9 V |
zan
|