QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 21309|回复: 46
打印 上一主题 下一主题

关于泊松的问题(生物信息学的一个问题扩展)

[复制链接]
字体大小: 正常 放大

16

主题

3

听众

83

积分

升级  82.11%

该用户从未签到

自我介绍
学习哦,加泡妞
跳转到指定楼层
1#
发表于 2010-9-7 18:35 |只看该作者 |正序浏览
|招呼Ta 关注Ta
实际问题是这样的:  P( r& |) J4 b( l& ]
在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?6 y7 }% j1 B  |% E( k
2 _  U  C! ?- U/ X# b
概念解释:/ c$ g! M, M) K8 ?% y8 U
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads% W$ n  K1 N# i. l' }$ \
测序深度:测序的reads的总大小 /基因组大小,叫测序深度
& l: L1 Z9 S2 W8 d7 V: m6 ^) t' G; B+ d0 I1 ^, N- A" Q
之前,生物信息估计基因组大小的方法
2 ^5 m! n0 ~2 ]* `+ p: a, i' f# R# D我的实验过程是这样的4 s: y' {; J! u& }8 D3 c
8 m: \/ \# h" D* D( W2 R
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
. g: O; c- s3 I5 d2、统计相同K-mer出现的次数(叫K-mer的深度)7 d2 F: G( G) L! X" L9 a
3、统计相同深度出现的次数(叫深度的频数), _$ l, L6 ^) v- O4 ?+ e
4、作深度与深度的频数的图
3 L& Q; J: B; p, s6 g& r: z& m( x
0 C- D) G6 H8 O- ^2 b假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)" Y: Z, w% H* E1 H. F3 z: D2 b! h

0 X6 r; g6 P7 I) l- ]" S我的问题:
1 Z. C9 g/ ]/ E+ F1 N6 q在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
. y' o7 w0 |& Z1 I那么,4 G8 {' v  Q* p
1、这样的图是符合什么数学公式了?
( B5 T6 a* h! G+ o2 a& C2、能否区分出基因组中重复的区域?0 j& _# j, N- [9 \
: C, }3 p; J6 I: ~# T- f3 n3 U8 M3 u
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
1 B% h3 [' \. S3 O7 L那么,
, u. \  ^' c$ c& v  C4 R2 @$ A* O9 n1、这个可以用数学公式表示吗?
6 e/ m/ G# G: T2 u( W% R3 I2、能否区分出污染的数据?$ t* C- d. r9 [0 G8 {  {0 x0 v
: U# y6 v- f2 `  a% }4 k$ Z1 D% H
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)6 \1 ^! I5 G/ `4 u: B5 K/ a
; K9 I* j- X0 z9 |

+ i) T( U9 r0 t# W( u5 x4 \  O自我介绍
2 L4 n5 t' ?5 m3 V2 \我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。0 T3 T+ G' y+ \7 g6 T! ]

; g& N7 ^% q5 ]9 x希望得到数学同志们的帮助,+ |& _# F' a# m( c9 r; ]
我的邮箱是:jingyc01@163.com,qq是51178182) v/ [2 Q! ]2 C7 V/ l

8 r: ?9 Z0 T/ m* H: X4 B4 D
  h9 t* J8 r) j* F  a$ D$ F7 m. F
+ e8 w2 Z* P, M8 R) Q; Y  T
zan
转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

0

主题

0

听众

1

积分

升级  20%

该用户从未签到

K-mer分析来评估深度确实有这个问题,就算是单峰,估算值和真实值也有偏差。最近我也刚入手开始做基因组的分析,很多自己也不懂呐
回复

使用道具 举报

16

主题

3

听众

83

积分

升级  82.11%

该用户从未签到

自我介绍
学习哦,加泡妞
前两天我和同事讨论了测序错误的问题,发现在测序错误的部分和测序正确的部分不是简单的的叠加,很复杂,所以有那位高人指点一下,我们一起研究。
回复

使用道具 举报

16

主题

3

听众

83

积分

升级  82.11%

该用户从未签到

自我介绍
学习哦,加泡妞
后面我发现了,我觉得很难的东西,其实别人早就做处理了,kmer分析这个东西是落后的东西呀,只是有些数学关系证明还是很有意思,
回复

使用道具 举报

SDHZTAO        

0

主题

2

听众

90

积分

升级  89.47%

该用户从未签到

新人进步奖

楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了
回复

使用道具 举报

0

主题

2

听众

90

积分

升级  89.47%

该用户从未签到

新人进步奖

回复

使用道具 举报

wds315        

0

主题

2

听众

51

积分

升级  48.42%

该用户从未签到

新人进步奖

我基本上是采用看英语文章的办法,先泛读,再精读,再一句一句看,最后再提纲挈领,总算是明白一点了,当然,也可能还是领悟错了。最后要说的一句话是:楼主,你很牛叉,希望你不是真的有病。   
回复

使用道具 举报

fengge        

0

主题

2

听众

93

积分

升级  92.63%

该用户从未签到

新人进步奖

回复

使用道具 举报

0

主题

2

听众

93

积分

升级  92.63%

该用户从未签到

新人进步奖

回复

使用道具 举报

0

主题

2

听众

94

积分

升级  93.68%

该用户从未签到

新人进步奖

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册地址

qq
收缩
  • 电话咨询

  • 04714969085
fastpost

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

手机版|Archiver| |繁體中文 手机客户端  

蒙公网安备 15010502000194号

Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

GMT+8, 2026-6-12 09:30 , Processed in 0.740870 second(s), 102 queries .

回顶部