- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:! ]5 T# U$ S$ [0 i3 ~( Q4 E" L
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?3 G4 R; y/ L' I% M' E! v T7 C3 {
7 u+ H( H4 R- g概念解释:0 ~ x$ u1 g2 H5 Y( x ?3 K# b
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
3 b0 I: y- m2 m测序深度:测序的reads的总大小 /基因组大小,叫测序深度3 ]: l E5 V* r- b; q t, E
! x3 P- A. z! z. M6 } E( K
之前,生物信息估计基因组大小的方法
! h8 E5 x' u E我的实验过程是这样的: w b6 F* g% }) b7 Y) `
# J0 Z& i& ^! t; L( ^. W
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
$ \* H+ r; z( ~9 X% X8 L X2、统计相同K-mer出现的次数(叫K-mer的深度)! x$ l$ v! q! {1 {4 @
3、统计相同深度出现的次数(叫深度的频数)
a5 M1 w P+ [# i4、作深度与深度的频数的图
; E* e6 D* X o( h! |2 B* z4 q y! Z+ Z! k3 t* G! m- H1 w
假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)$ Y M! x. X) ?9 e5 f
) P8 k/ C* _ o3 D
我的问题:
3 |- X6 a3 w9 x2 w! ^. E: E1 n9 S5 j* S在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。* x) T* [ c# M9 s3 H
那么,: L1 N" [% O5 ~" l7 ~5 T, \
1、这样的图是符合什么数学公式了?2 O+ e- M; Q. Q" b" p2 |/ G4 @
2、能否区分出基因组中重复的区域?
4 `+ e* s5 i9 P4 x+ U' I# [ ~ x( _3 g# @6 c3 [/ x
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
) C% i; g3 R- C! Y# b3 O那么,3 v, i( W8 z: T5 ~
1、这个可以用数学公式表示吗?
3 w6 G2 w' n9 o4 `+ x3 K% p2、能否区分出污染的数据?
, q8 C* U5 ?! i" w6 C h/ N/ m% i. [5 c& K( g5 l% O" @
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
! Y: w! A5 x$ y& W
- |! V! K5 \" b* J! M3 I" J1 B; O" s& o, P$ A2 v+ ^- \
自我介绍; ~! Q% L8 Q" D0 m+ v8 H
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
6 d D9 b* a; p' E1 M" m* l% `
希望得到数学同志们的帮助,
9 D. |7 @7 ~2 P' H& m! a我的邮箱是:jingyc01@163.com,qq是51178182$ W, q, W" S5 |0 n- t+ s; D
; s* }: T0 a( } F4 L. R
. U" c$ z+ B( P* }
9 V: p- {7 w/ R/ K# ~2 u) G7 ?9 h |
zan
|