关于泊松的问题（生物信息学的一个问题扩展）

chuchumaolu 发表于 2010-9-7 18:35

实际问题是这样的：
在实际基因组测序过程中，我们想从测序的reads的数据情况中了解生物的基因组的大小（未知）？

概念解释：
reads：为了知道生物基因组的DNA序列情况，把生物基因组的DNA打断为小的片段，测定每个片段的DNA序列情况，每次测定反应得到的数据叫：reads
测序深度：测序的reads的总大小 /基因组大小，叫测序深度

之前，生物信息估计基因组大小的方法
我的实验过程是这样的

1、在一个长度为G的大小的字符串中（DNA序列），从头至尾按一定长度去字符串（叫做K-mer）。例如：ATCT,取3-kmer为：ATC,TCT
2、统计相同K-mer出现的次数（叫K-mer的深度）
3、统计相同深度出现的次数（叫深度的频数）
4、作深度与深度的频数的图

假设：K-mer的深度与深度的频数图服从泊松分布，可以得到：位置基因组大小=K-mer的个数/K-mer的期望深度（叫peak值）

我的问题：
在一个基因组中存在相同的区域，按照上面的做法得到的深度与深度的频数的图，会出现两个峰，其深度关系成2倍关系。
那么，
1、这样的图是符合什么数学公式了？
2、能否区分出基因组中重复的区域？

另一个问题，在基因组测序中，由于样品不纯存在污染（混合有其他生物的基因组），做深度与深度的频数的图，也会出现两个峰。
那么，
1、这个可以用数学公式表示吗？
2、能否区分出污染的数据？

第三个问题，泊松公式能否像三角函数一样，成叠加的性质，（sinx+cosx）

自我介绍
我是学生物的，现在做基因组测序工作，在我们的实际工作中，我们经常要计算位置基因组大小，但是我们做的图都不是标准的泊松分布图，所以按照上面公式估计出的大小有很多偏差；而且在实际工作中，经常会遇到杂合和污染的情况；对我们的估计影响也很大。所以希望从数据上得到一些处理。

希望得到数学同志们的帮助，
我的邮箱是：jingyc01@163.com，qq是51178182

matdrchen 发表于 2010-9-7 20:00

我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~

Agnes2_3_4_5_6 发表于 2010-9-7 20:49

a~帮顶~先~！！

yjh2010 发表于 2010-9-7 23:24

先支持一个！

madiostudy 发表于 2010-9-8 08:00

强人，佩服死了。呵呵，不错啊

chuchumaolu 发表于 2010-9-8 08:52

求高人指点，难道中国真的没有搞数学的

china_chinese 发表于 2010-9-8 12:00

楼主，你写得实在是太好了。我惟一能做的，就只有把这个帖子顶上去这件事了

class77787 发表于 2010-9-8 15:00

顶顶更健康，越顶吃的越香。

wenfeng018 发表于 2010-9-8 20:00

我要把这个帖子一直往上顶，往上顶！

poipoi 发表于 2010-9-9 08:00

我要把这个帖子一直往上顶，往上顶！

页: [1] 2 3 4 5

数学建模社区-数学中国's Archiver

关于泊松的问题（生物信息学的一个问题扩展）