数学建模社区-数学中国
标题:
基因测序行业解决方案
[打印本页]
作者:
杨利霞
时间:
2019-4-21 14:53
标题:
基因测序行业解决方案
基因测序行业解决方案
, w3 k: ^, Z) D5 o. M8 S$ {
基因图被称为“上帝用以创造生命的语言”,但今天我们不谈上帝,不谈基因,我们谈谈基因在IT中的应用和现状。
# O1 L4 k1 E( x( w; R# n
% N, A9 [1 L B8 G7 z2 V
段同学的基因测序行业解决方案,非常不错,赞!推荐!
: z& K9 h# B9 \! ^* s/ [' p4 I
; o7 a; i/ U$ V7 c$ Q
% Z; X( V8 _- i4 n& x# u1 I5 q
近年来,基因行业快速发展,由原本的实验室内的科研项目逐步走向临床应用,计算模式从离线向在线演进,带动医疗和健康行业的发展的同时,也让基因行业迎来新时代。
( v: O( P# P: e( e& w
+ E+ y& m0 m/ C9 Y6 l
基因行业IT现状
* H1 R* B6 Y. I# ^9 F$ u8 w
5 W' J! Y: q. ]! i: i& K
& Y# V; }& ^% R$ e( p* T
* \+ p4 r) e" S0 A
基因计算行业在现实中遇到了很多挑战,主要分为如下几部分:
! K) v) I. R; ]
! c( d) A2 {. ~, O6 C1 {" {6 Z$ R
1、数据存储方面,由于基因测序技术的提升,测序成本降低。从最初的人类基因组开始细分扩展,目前已经涉及到肿瘤,遗传病检测。扩展到植物,远古生物,细菌,病毒,微生物的基因检测。因此数据种类和数据量是异常庞大,经常以PB为单位保存。
% g/ e0 ^4 `3 _5 T
+ M8 ^3 _3 n8 \+ N9 K4 s! q- b
2、数据计算方面,大规模样本的数据分析和挖掘需要海量计算资源,本地计算成本太高,扩容慢,收效更慢
, [5 V8 M" U# o4 V' T- O
' r( R$ P* U5 k
3、数据全球化,因为基因行业的特殊性,很多样本数据需要到当地采集,如果有数据共享,就需要一个全球化,多数据中心的支持
) d9 }4 ]3 J( t$ `3 T" Y4 L
9 S- d& @* c6 Y; X, ?; }6 o
4、数据安全方面,基因数据相对比较隐私,但传统的基因公司IT能力较弱,安全措施不到位,防御能力很弱。
, Q) Y# }6 `( I$ Y
7 |( w) g4 i4 M& ~: l1 n& C
针对这些特点,我们很容易想到,云是一个很好的解决办法,为什么这么说?请听我细细道来:
, \- j8 _, C7 Q) {4 X l1 ^
" ~% N: I% g( z& T: }+ b3 y+ W
% X4 D4 T2 Z- I4 I) s
' Z1 Y- g0 c# D/ `' \7 s' B
6 k3 i- K$ ^- e3 X k
5 H' V! _: k" D9 z3 }
" w9 z# M7 [0 y
( V3 ~. [$ z+ U# `- y+ u
3 m: l# `' b: Q
数据计算--云本身的弹性计算能满足基因数据的挖掘和分析,能用最少的时间计算出结果。减少了用户的部署环境,计算的时间成本。
7 z d9 ?% w# x. O$ ]9 \& P
3 c4 @" Z2 Z0 H# H
数据存储—云平台能提供海量的数据存储,且存储的格式多样,一般的云平台能支持文件存储,对象存储,根据数据类型还能支持冷存储(或叫归档存储)。对于PB级的数据,冷存储能减少很多客户成本。
5 S* U: Z# | _" {- a
# s! Q) m* c8 s% w M
数据传输—测序仪产生的大量数据需要靠专线,裸光纤网络进行传输,如果数据量为PB级的,则可以使用寄送硬盘方式传送到云厂家的数据中心。
9 O2 j; j8 w! n0 ~4 {
8 r8 X' e! b& a* {( {, F3 M
数据安全—云平台本身的vpc的网络隔离,高防,数据加密等安全机制可以保证数据的安全性
5 _* U- ~" T; d$ @5 f8 W) U
3 ?# k) R' A( i& U
8 N5 \; s/ j3 W
) g/ W$ h J" B+ Z
# }7 F1 z' M$ @0 I! R& g+ p
基因行业的痛点
3 b- \9 X# X/ v) x1 [$ Z6 q
. I3 N" s1 m+ B3 _5 M% }! o
5 A7 a" G9 Q C' O# ?% Z) N) G. G
以上说到了基因行业使用云的好处,现在说说基因行业遇到的痛点
Q# X1 f' N& F: @ ^
9 Q7 P7 E2 g7 I6 b# n! K
基因行业产生的原始数据台庞大,动则PB以上,如果从本地传输到云端,使用公网不知道传输到何年何月,如果使用带宽10GB的裸光纤,传输1PB数据需要连续15天,这样的时间跨度没法接受,即使采用寄送硬盘方式,也是需要很大的时间,人力,财务成本。所以,怎么解决数据端传输的云端是第一步,目前只能从远端减少数据量(比如针对基因数据研发一套数据压缩算法)
) X% M8 o' S q6 Z1 b7 D
( i1 |5 Z7 |4 m2 H/ c7 U5 _/ ]
大量基因数据存储在云端,从主观上可能存在数据泄露的可能,这个也是公有云的弊端之一
/ B( G: B* [( y- E B1 @- H3 `
1 L8 z# p" s# G$ w1 ]6 N& n
基因行业盈利模式还是集中在基因测序的医院,个人,研发机构。国内除了华大等一批上市的领头羊以外,大批的中小型企业都处于寻找商业模式的阶段。
; s7 H3 T" E: ~! A* F
6 h* x0 P( n) L1 x8 H* Z
2 Q" }, Y' R7 \7 w$ T
; t p8 ]' x- G
基因测序产业链
# _3 X, D. i4 J4 Y. i
) [! a" K. C7 k: J! i; P% e: Q: U
, Y+ Q ^3 A$ Q* e7 j1 l
5 S- g! I. a5 u7 E. M) W+ Y
) l( d' l) V0 m. k
国内基因测序产业链分为基础研究、上游设备端、中游测序服务端、基因大数据服务和下游应用端
& ~. ]( X( R0 D. E8 c' H
* L: y! ?$ n c/ u# m! [1 M3 M- N
其中基础研究主要有药物基因组学、医学基础研究、生物学基础研究、微生物宏基因组学等;上游主要是测序设备、耗材及试剂的研发;中游按照疾病诊断的流程分为疾病预防与早筛、辅助疾病诊断和药物伴随诊断;数据服务包括基因数据存储、分析和解读等;下游应用端主要为科研机构、医疗机构、药企、第三方检验中心和个人消费者。
* m( O$ H" Q5 o6 o$ H, Q3 a
* V3 l- z4 x8 t: W2 A- Y" {
. C% y" S, X2 ]( ?3 {9 d
! @3 y/ Y1 E$ a# `+ ~9 g3 `, I. M
' j5 \" C$ R# S' r/ A! t
4 Y" c( A W' H/ S7 v
8 O( S% q9 ~# d1 @
$ C. z' e, T& S" ]- x
6 p! c, J' W z# D l
' l8 ^6 T8 [9 |- {) E
上游领域,目前的测序技术还停留在二代测序,部分已经使用三代测序技术。整个市场被国外基因检测仪器开发商Illumina长期处于垄断地位,国内主要是华大基因占用一定市场率。
/ E. t1 H! d$ z# V& M5 d$ P
+ w/ t( D) ^/ u' n
中游领域主要以基因组测序积累的数据为基础,应用场景为产前筛查、遗传病检测癌症早筛、药物分子筛选。国内市场以华大基因与贝瑞基因(贝瑞和康)为头,遥遥领先。同时有多家云计算,IT厂家提供IT技术基础,数据分析服务
8 M4 i/ d" f' W* ^1 i# l, R, W
! w Y7 B c6 f7 K
下游领域包括:产前筛查、癌症基因检测等检测的需求人士、药厂、医院及科研机构。而目前,基因检测服务中以NIPT为代表的生育健康类服务占据了一半以上的市场,但NIPT市场华大基因和贝瑞和康已经形成垄断。
7 W _, X. b ~) ^6 S" B, D. Q
! A, b" }9 q& `
# Q9 {5 B, U2 D
7 g5 \: z) F/ n; M- g* t, S
' H0 N& F$ h3 g% m6 }9 o
3 s4 q3 I* n# F X z
基因测序应用场景
) a& w3 F% M3 P3 y7 C: {6 u' D y! c
, W: Z& N7 r3 s4 n- w" R/ s/ F
7 D1 J8 M W3 S+ ^% E) ]2 U9 _, p
( o6 N& Y+ O$ n0 i+ V, ]0 `( l
0 b& n5 N/ D! {" I5 `0 ?( E% Y
整体来说,目前基因行业的应用场景还是一片蓝海,有很多待需要开发的场景和业务,随着测序成本的降低,能应用的领域也越来越广。同时对IT技术的依赖也会越来越旺盛。
$ i: ]6 x& |8 y( j6 [
6 N: @+ n4 @# f- [
/ h% ?6 X; N1 E2 T! L. ^/ C1 i
h: l, M& Q3 U9 Q4 O9 t, v
数学建模解题思路与方法.pptx
2019-4-21 14:54 上传
点击文件名下载附件
下载积分: 体力 -2 点
117.69 KB, 下载次数: 7, 下载积分: 体力 -2 点
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/)
Powered by Discuz! X2.5