- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:2 h/ |& Q" W, u6 u8 J: v
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?2 ?& R) b% J# x! M5 f$ ]
3 ^+ D& _" N; u' ~5 } x概念解释:
3 p$ K/ L% B8 R- _8 d' i- N$ |; ]$ Qreads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads# W1 W' ?) J+ X7 N6 q; l
测序深度:测序的reads的总大小 /基因组大小,叫测序深度4 P6 `; {+ G6 h3 @( ]' S
: n6 t- o: b( [7 K之前,生物信息估计基因组大小的方法
& H; J/ `% ?7 a2 r* r6 B( D我的实验过程是这样的% ]+ O8 q3 o9 Y+ [7 h
/ G2 {1 x* h! t( N1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
$ ~! T' B; r4 D+ A+ O" L; R; i$ V i2、统计相同K-mer出现的次数(叫K-mer的深度)8 O4 z! \4 j$ ?$ Z) P
3、统计相同深度出现的次数(叫深度的频数)
' ~* N- z' Y5 k4、作深度与深度的频数的图
% \% _( e) o6 T4 | ^
( U3 j( ]5 g$ n* q4 ~$ l# Q1 W假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值). C6 A+ K# i' L5 h- }$ `( k& B( c
6 ~: q: s1 Y, ]( n4 s我的问题:. r `& C. l/ d: e9 V9 B; T3 v$ a
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。: G0 @( {7 D1 O
那么,
# ^) ?( o0 U" ^- B% F1、这样的图是符合什么数学公式了?+ P* z' y' [0 y* j
2、能否区分出基因组中重复的区域?
; H' @7 ]2 L; F5 P5 C# v# W0 t) ^ t2 K% d0 x6 R
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。. A' z, V' w, V7 G9 t# p) l
那么,
3 v5 U) E& H: M/ M5 r1、这个可以用数学公式表示吗?4 W8 W8 i7 ], }$ l
2、能否区分出污染的数据?/ ^' b/ j9 \* K7 {# F
& y7 @. r* G! o* A+ U0 I2 J1 N
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
" E% I' A6 z! c0 @+ \+ r- Z4 w+ C, m1 T. j5 ?9 z0 x) v
+ c! m9 g( O1 H: E: ^
自我介绍
+ a- Q* I& v* b) ]$ Y! B我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。6 K5 Q- f4 G- V3 k" G# J
! _" O2 Z( _$ u1 d: u7 Y; k7 w0 G
希望得到数学同志们的帮助,$ O8 g, p$ q1 r. Q% u
我的邮箱是:jingyc01@163.com,qq是51178182 a6 `" i$ } ]% {" V+ o1 x
- g+ p% l, C l8 ` p9 ? }1 f
3 q+ V7 H; n# I3 G# w
2 }2 J; ~# s& u |
zan
|