- 在线时间
- 10 小时
- 最后登录
- 2012-5-29
- 注册时间
- 2010-3-8
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 165 点
- 威望
- 0 点
- 阅读权限
- 20
- 积分
- 83
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 65
- 主题
- 16
- 精华
- 0
- 分享
- 0
- 好友
- 2
升级   82.11% 该用户从未签到
- 自我介绍
- 学习哦,加泡妞
 |
实际问题是这样的:
; @3 V9 v" |! U% f% i* s+ f在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
8 t0 X7 u K% `. }7 C$ a3 g
: S; V; [" l% Z6 C' ?6 q概念解释:- J9 y v0 w9 }, s" d' I4 b, r& ~
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads, i% j2 B+ |. A% t5 P
测序深度:测序的reads的总大小 /基因组大小,叫测序深度 u) D: R9 k9 j& a( ]1 g- z$ W4 H) T
" }4 V$ o1 y) r6 h; I7 `% O, F0 w之前,生物信息估计基因组大小的方法
$ S* s: X# S3 N y# y我的实验过程是这样的5 t0 u. ], U4 l. Z9 p
! J; R0 {4 P9 R# @' h F
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT$ @7 T$ {) h% Z0 w7 e2 m
2、统计相同K-mer出现的次数(叫K-mer的深度)
: ?/ h! r8 ~- O! J7 I% _8 b3、统计相同深度出现的次数(叫深度的频数)
, S" J3 u9 G) l4 R0 [4、作深度与深度的频数的图" y7 a" H3 B# x4 R% ]
# T U0 [& j I: A7 G" f假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)+ }& h* N4 S5 O! y" B8 K1 t. X7 E
! {, }2 T9 R9 a7 F" {- ~) ^7 r
我的问题:/ B' m; x7 N( p" ?+ x; z
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
5 E7 Q+ e: h* K* ?那么,+ X" K( H# k% K4 `# J2 x/ @
1、这样的图是符合什么数学公式了?
. X$ S' B' {: o K2、能否区分出基因组中重复的区域?. ~6 X; c4 g; T' Y
. u) @* y6 O( v- r8 S
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
3 o7 R9 u/ ?& }' O" N那么,
' ?; o S$ V+ j- X; |) E/ j$ O1、这个可以用数学公式表示吗?' r) N% W) _0 A e' m
2、能否区分出污染的数据?$ y* M9 ]1 ~, p3 a
4 A9 X: Y9 A' J/ \* l
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)3 R$ r; ^& T' ^0 z& V
- K) O. t( k" }& |
& v* O8 R4 v- U/ _! O# x自我介绍4 @6 D, l" V& B: Y0 L
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。0 e/ Q4 {+ h" X
% N* P- ]* h: T0 E9 `$ r
希望得到数学同志们的帮助,
' N' @/ v' X1 D' A我的邮箱是:jingyc01@163.com,qq是51178182
) t x" ?0 {3 f8 o
6 _! r5 {: f! P, g4 k9 D* G+ k4 E, T: }& d: @) }1 d
- T0 ` u5 G& L8 x& c; F2 d/ q% D
|
zan
|