查看: 713|回复: 0

个人基因组的“大数据”——从FDA对23andMe的禁令说起

字体大小: 正常放大

math3056

446 主题	9 听众	1143 积分

升级 14.3%

TA的每日心情

	衰 2014-6-21 01:29

签到天数: 45 天

[LV.5]常住居民I

自我介绍: 没有

电梯直达

1^#

发表于 2014-4-17 14:16 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

声明：为了保证本文的可读性，行文时对某些术语的使用可能不够规范，且完全没有区分“基因组测序”和“基因组重测序”等学术上看有区别但会给一般读者造成理解困难的概念。碍于水平，文中可能不可避免地有专业知识错误，欢迎同行指出和探讨。

23andMe的部分服务被FDA叫停，这已经不是一个很新的新闻了。早在11月22日FDA就已经向23andMe发出了警告，要求后者立即停止其基于唾液的个人基因组服务（PGS）直到得到授权。这个决定意味着FDA决定把基于个人基因组测序的疾病风险预测归为医疗设备进行管理。而考虑到CFDA对FDA的一贯的跟随性，国内的相关技术和服务也可能被归于同一类别加以管理。可想而知，FDA的这一决定恐怕给不少希望进入这一领域分一杯羹的公司泼了盆冷水。

这个23andMe是干嘛的呢？简单来说，你提供你的唾液给它，它利用你脱落在唾液里的细胞获得你的DNA，再用这些DNA作为材料基于Illumina公司的解决方案检测你基因组上的约一百万个特定位点的序列，然后把这些序列跟公开的免费数据以及公司自己积累的历史数据做比较从而分析你的先祖来源信息（这个基本上只有娱乐意义，且相关服务不在FDA的禁令范围内）和预测你患上某些疾病的风险。

其实，自从人们发现有的疾病的发病率跟人的基因组中特定位点的序列有关，我们就希望能够借助基因组测序的手段来进行诊断甚至是早期预防。想一想，如果一个人生下来的时候他/她的父母就能拿到一份报告，告诉他们这个孩子在今后的生活中需要注意些什么才能更健康长寿少生病——比如“你患II型糖尿病风险高于平均水平，应当格外注意对饮食中热量的控制”，或者“你患高血压的风险与一般人群相当，但仍然应该注意回避相关风险”——这感觉多好啊是不是？

又一次地，理想的美好和现实的骨干形成了鲜明的对比。不，我想说的不是FDA的禁令，而是这个方法的生物学原理本身。现在的研究，即使在诸如糖尿病、囊性纤维化以及一些癌症这样的“热点”疾病方面，也远远不能达到全面揭示个人的基因组序列和患病概率的关联的程度——别说全面了，连声称了解了大多数因素都做不到。且不说23andMe所用的芯片能检测的一百万个SNP（可以简单理解为一百万个特定位置的碱基差异）只占人的基因组上预计SNP总数的三分之一、人类基因组总碱基数的万分之三，就算真的把所有已知的SNP位点全都测一遍，其提供的结果在大多数时候也只能作为诊断时的多个参考因素之一，而不能直接给出一个百分率这种概率结果。只有在个别情况下，比如特定的某个或某些SNP与对应的基因以及疾病之间的关联被完全阐明的时候，基于SNP的诊断结果才可能具有足够大的可靠性而不至于让人们采取错误的措施。我想这就是FDA禁止23andMe的相关服务的原因，同时也为那些希望推动相关服务得到批准的人指明了下一步工作的方向。作为对比，FDA在对23andMe的禁令发布前三天，批准了Illumina（没错就是23andMe的技术提供商！）的一种第二代测序设备、对应的两款用于囊性纤维化诊断的试剂套装以及可供各个临床实验室开发其他疾病的诊断用试剂套装的开发套装（请原谅我在这里没有用“试剂盒”这种术语）。两相比较不难发现，至少在目前阶段，只有针对特定的有充分深入研究的疾病的基于测序的筛查及诊断方案才更有可能得到批准（谁能告诉我无创产前DNA检测筛唐氏综合症那个过了FDA的审批没……）。这种“个例审查”式的审慎态度与FDA对转基因产品的态度是基本一致的，也符合这个组织一贯以来相对保守的取向。

当然，有方向是一回事，能做到又是另一回事。以现在的技术衡量，即使对一个人的基因组进行完整测序，包括数据处理在内的成本也仅在一千美元出头。参考人类基因组计划、千人基因组计划和炎黄计划等项目的数据，对个人的基因组测序结果做数据分析也并非难事。问题在于，我们要如何对一个个独立的疾病和六十亿个碱基之间的关系如何做出可靠的分析？更进一步，在每个人的身体里存在着大量的微生物（比如肠道微生物），这些微生物与人体的健康也呈现着多样的关联，进而我们要如何对特定疾病与人体内微生物的基因序列（它们包括的基因数量是一个人的基因数量的好几百倍）的关联进行可靠的研究？人的身体是一个复杂的网络，牵一发动全身的情况是普遍存在的，一种疾病和几段、十几段甚至几十段位于基因组不同位置的序列都有关的情形很可能普遍存在。那么，我们需要怎样的技术以及方法才能高效率地把跟一种特定疾病有关的所有这些序列都找到并且赋予它们正确的权重，从而让我们能够基于个体的基因组测序结果来分析这个个体在一般条件下发生这种疾病的概率？以及，如果没有办法找到这样的技术方法——意味着对几百种疾病分别找到足够可靠的基因组学诊断标准将耗费极为漫长的时间（或者需要大规模的人力投入）——我们是否有必要在降低我们对基于基因测序的筛查、诊断技术的预期的同时适当降低相应的审批门槛？“不那么可靠的诊断结果可能让人承担不必要的心理压力甚至采取不必要的医疗措施”和“人们无法简便地、独立于高水平的医生地对自己的健康情况做出大致的估计”之间应当如何权衡并不像有些人认为的那样显而易见，因为医疗资源中最稀缺也最难在落后地区通过外界帮助得到大幅度改善的，恰恰是“高水平的医生”而非成本将会毫无疑问地变得越来越低廉的基于基因组测序的诊断设备。

最后，我不得不对23andMe对它们的数据规模自信满满的宣传表示一下“呵呵”。当然，就像我前面说的那样，有数据也未必意味着有可靠性。但是如果连数据量都不够，要获得可靠的预测结果毫无疑问会更加困难。在这个大数据的浪潮里，我们这些泡在ACTG里寻求人类健康和公司利润的人的下一个机会，也许就藏在那每人十几GB的“大数据”里吧。

本文由CoHuBridge授权（果壳网）发表，文章著作权为原作者所有。

zan

基因组

转播0 淘帖0 分享0 收藏0 支持0 反对0 微信

帐号		密码		只需要一步，快速开始		注册地址	找回密码

个人基因组的“大数据”——从FDA对23andMe的禁令说起

相关帖子

QQ

电话咨询

关于我们| 联系我们| 诚征英才| 对外合作| 产品服务|