关于泊松的问题(生物信息学的一个问题扩展)
实际问题是这样的:在实际基因组测序过程中,我们想从测序的reads的数据情况中了解生物的基因组的大小(未知)?
概念解释:
reads:为了知道生物基因组的DNA序列情况,把生物基因组的DNA打断为小的片段,测定每个片段的DNA序列情况,每次测定反应得到的数据叫:reads
测序深度:测序的reads的总大小 /基因组大小,叫测序深度
之前,生物信息估计基因组大小的方法
我的实验过程是这样的
1、在一个长度为G的大小的字符串中(DNA序列),从头至尾按一定长度去字符串(叫做K-mer)。例如:ATCT,取3-kmer为:ATC,TCT
2、统计相同K-mer出现的次数(叫K-mer的深度)
3、统计相同深度出现的次数(叫深度的频数)
4、作深度与深度的频数的图
假设:K-mer的深度与深度的频数图服从泊松分布,可以得到:位置基因组大小=K-mer的个数/K-mer的期望深度(叫peak值)
我的问题:
在一个基因组中存在相同的区域,按照上面的做法得到的深度与深度的频数的图,会出现两个峰,其深度关系成2倍关系。
那么,
1、这样的图是符合什么数学公式了?
2、能否区分出基因组中重复的区域?
另一个问题,在基因组测序中,由于样品不纯存在污染(混合有其他生物的基因组),做深度与深度的频数的图,也会出现两个峰。
那么,
1、这个可以用数学公式表示吗?
2、能否区分出污染的数据?
第三个问题,泊松公式能否像三角函数一样,成叠加的性质,(sinx+cosx)
自我介绍
我是学生物的,现在做基因组测序工作,在我们的实际工作中,我们经常要计算位置基因组大小,但是我们做的图都不是标准的泊松分布图,所以按照上面公式估计出的大小有很多偏差;而且在实际工作中,经常会遇到杂合和污染的情况;对我们的估计影响也很大。所以希望从数据上得到一些处理。
希望得到数学同志们的帮助,
我的邮箱是:jingyc01@163.com,qq是51178182
我来了~~~~~~~~~ 闪人~~~~~~~~~~~~~~~~ a~帮顶~先~!! 先 支持一个! 强人,佩服死了。呵呵,不错啊 求高人指点,难道中国真的没有搞数学的 楼主,你写得实在是太好了。我惟一能做的,就只有把这个帖子顶上去这件事了 顶顶更健康,越顶吃的越香。 我要把这个帖子一直往上顶,往上顶! 我要把这个帖子一直往上顶,往上顶!