数学建模社区-数学中国

标题: 基因测序行业解决方案 [打印本页]

作者: 杨利霞    时间: 2019-4-21 14:53
标题: 基因测序行业解决方案
基因测序行业解决方案- b9 g' J- r8 L/ \2 b
基因图被称为“上帝用以创造生命的语言”,但今天我们不谈上帝,不谈基因,我们谈谈基因在IT中的应用和现状。) Z! c( ?. }3 ?" K! `1 `, j

# C9 L8 s( |5 [% q, }段同学的基因测序行业解决方案,非常不错,赞!推荐!& y5 f: e; \) ^+ b& X3 N) `# ]
/ v8 i. s5 [5 N9 x

- ~: y4 B4 }" o8 A6 Z2 x4 G) O近年来,基因行业快速发展,由原本的实验室内的科研项目逐步走向临床应用,计算模式从离线向在线演进,带动医疗和健康行业的发展的同时,也让基因行业迎来新时代。6 ^6 c7 }! x2 J. ]" S' R

& q6 V1 H) B, P, G  j, A9 ?基因行业IT现状# K0 x8 r9 ]' d
" e5 O  b" m7 p1 r1 E! }0 N
4 F) Z' G6 F, H" F0 X8 Z9 c* t% Z# J
: Z6 m' r; E$ m9 j2 O& L
基因计算行业在现实中遇到了很多挑战,主要分为如下几部分:
) D9 Q+ g0 J6 s" P! O
' U! u# ]/ x  ?6 e" |3 O7 q1、数据存储方面,由于基因测序技术的提升,测序成本降低。从最初的人类基因组开始细分扩展,目前已经涉及到肿瘤,遗传病检测。扩展到植物,远古生物,细菌,病毒,微生物的基因检测。因此数据种类和数据量是异常庞大,经常以PB为单位保存。
4 l6 `  O( e1 V: {! i" P
7 @( }8 I) Q; y$ {; H: D2 y2、数据计算方面,大规模样本的数据分析和挖掘需要海量计算资源,本地计算成本太高,扩容慢,收效更慢
4 B- ?  i$ Z: X/ E; N
' k: ]0 I3 t7 x/ R& w2 V% k/ o3、数据全球化,因为基因行业的特殊性,很多样本数据需要到当地采集,如果有数据共享,就需要一个全球化,多数据中心的支持- l( _) \& S& w" u2 t
: P2 o. x1 h7 m6 d0 U. j
4、数据安全方面,基因数据相对比较隐私,但传统的基因公司IT能力较弱,安全措施不到位,防御能力很弱。; y8 G2 H" M* v+ ^% r9 x4 l

' H; m1 `/ J' Q+ ^1 K* B针对这些特点,我们很容易想到,云是一个很好的解决办法,为什么这么说?请听我细细道来:
' y% U6 V6 ]3 W% q
$ o3 j# @2 A' E
0 p* ^: d: k+ q0 @/ b7 q8 N: @4 U, |. _% d* s$ O) ~, [
* d" x5 K+ H0 o% I: M  C
+ i1 w: N% f* X1 c

3 h+ _5 n3 }, b% |( k$ b$ ]& J; b2 ^; l/ q( q, p2 @# ^
, x" y* ~; i, \
数据计算--云本身的弹性计算能满足基因数据的挖掘和分析,能用最少的时间计算出结果。减少了用户的部署环境,计算的时间成本。8 k3 q, z* f- K5 U0 X

! \9 B6 W$ k" c数据存储—云平台能提供海量的数据存储,且存储的格式多样,一般的云平台能支持文件存储,对象存储,根据数据类型还能支持冷存储(或叫归档存储)。对于PB级的数据,冷存储能减少很多客户成本。
- f1 P+ k% T' x/ K- }  U) ]; C
数据传输—测序仪产生的大量数据需要靠专线,裸光纤网络进行传输,如果数据量为PB级的,则可以使用寄送硬盘方式传送到云厂家的数据中心。
3 i) k( O' C$ A1 n" s* w2 n1 ]" v# @# g& \: t9 b
数据安全—云平台本身的vpc的网络隔离,高防,数据加密等安全机制可以保证数据的安全性
2 ]. W6 j. }7 f/ x. z$ B
& S4 H) R4 O: ~- x) k5 ^) G) P8 }( P" U1 B, R' z* Q5 p

! N6 e! m1 w3 _& U. Z
) B; t; j. r2 h基因行业的痛点
' n. d4 }9 L8 x% n
" ?0 K  s0 R- P1 Q0 Y% V$ C
, c; p7 H' s( H: G& b# g以上说到了基因行业使用云的好处,现在说说基因行业遇到的痛点
9 C) P0 w' f- C4 u
, u  z% n8 F' L6 D9 ]. q基因行业产生的原始数据台庞大,动则PB以上,如果从本地传输到云端,使用公网不知道传输到何年何月,如果使用带宽10GB的裸光纤,传输1PB数据需要连续15天,这样的时间跨度没法接受,即使采用寄送硬盘方式,也是需要很大的时间,人力,财务成本。所以,怎么解决数据端传输的云端是第一步,目前只能从远端减少数据量(比如针对基因数据研发一套数据压缩算法)
( x0 p  @" n$ }; m) f6 }: Y2 ?1 _( Q) M- T, N% x' a. B$ v
大量基因数据存储在云端,从主观上可能存在数据泄露的可能,这个也是公有云的弊端之一
7 w6 F5 ?3 Y  @, k5 B) `3 C
: P' ~) O2 _3 O3 i7 [+ r% h基因行业盈利模式还是集中在基因测序的医院,个人,研发机构。国内除了华大等一批上市的领头羊以外,大批的中小型企业都处于寻找商业模式的阶段。2 }! U+ n6 J2 k# |

" x. M5 b; F3 J7 c& E! S; c* h/ ]7 f/ l, k  E, i

+ }* C3 {4 p0 k" |* S1 B基因测序产业链4 X: ~$ E8 i: l0 `) w
) n- E) s+ K8 _& L3 O
$ U  B: D% D! `* Y1 l

& T" |; m  x9 `) p( ~: o8 j
) Q0 Y% W1 N/ @8 d" `国内基因测序产业链分为基础研究、上游设备端、中游测序服务端、基因大数据服务和下游应用端$ s* T& Z! b. `: P) G
. l7 F6 p0 r* ~8 F# b0 T" c
其中基础研究主要有药物基因组学、医学基础研究、生物学基础研究、微生物宏基因组学等;上游主要是测序设备、耗材及试剂的研发;中游按照疾病诊断的流程分为疾病预防与早筛、辅助疾病诊断和药物伴随诊断;数据服务包括基因数据存储、分析和解读等;下游应用端主要为科研机构、医疗机构、药企、第三方检验中心和个人消费者。
, L2 z7 X! \/ h% i! U7 w
& N2 V7 V9 g. k) I, y+ k, h
( ]$ ^+ Q9 z6 s6 P2 p) Q  l" G+ m% w# `; ~9 H6 ^! w
2 `% U6 N$ c. t2 O( c6 \

0 ]; D- U7 M6 S! R# ?! _
+ Q6 g4 a( o9 E6 Q, P! d/ i4 B6 F( k5 C+ S$ U  S
0 `+ O2 _! h: F2 s8 k' A: C
- A: p8 C( }  l9 S
上游领域,目前的测序技术还停留在二代测序,部分已经使用三代测序技术。整个市场被国外基因检测仪器开发商Illumina长期处于垄断地位,国内主要是华大基因占用一定市场率。3 h; O# l, o* b+ Q- d( C% l
6 C4 U; D! ]* O* A. C
中游领域主要以基因组测序积累的数据为基础,应用场景为产前筛查、遗传病检测癌症早筛、药物分子筛选。国内市场以华大基因与贝瑞基因(贝瑞和康)为头,遥遥领先。同时有多家云计算,IT厂家提供IT技术基础,数据分析服务" ~) b" F* @1 @- a7 k* R7 M

/ s' z  _4 p+ F/ F) K, h9 x/ `下游领域包括:产前筛查、癌症基因检测等检测的需求人士、药厂、医院及科研机构。而目前,基因检测服务中以NIPT为代表的生育健康类服务占据了一半以上的市场,但NIPT市场华大基因和贝瑞和康已经形成垄断。
/ \3 U8 H) i# H: f, G; f; }# L1 C) i' z' ]

5 B1 F4 Q! c6 W+ i- x  q& y0 K! O) Y' Q" e' t& d
" n; ]1 L3 J3 n1 s

* N! \3 ~7 Q; i0 K! ~" N* ?基因测序应用场景6 ]9 o+ A$ O& W, e

$ q; i# _: X; v& V; v$ l% Y' X0 @" k! R
; m. g) Y& y# ]) Z

: j$ U# U* \. ^& ~8 r整体来说,目前基因行业的应用场景还是一片蓝海,有很多待需要开发的场景和业务,随着测序成本的降低,能应用的领域也越来越广。同时对IT技术的依赖也会越来越旺盛。
! K5 W4 {7 [9 |7 v: r
! G0 h2 T: q" f; g) O4 `5 Y  e& S( F2 H" a0 Z- r" g
% S4 u) o7 a) M5 p- ]) p

数学建模解题思路与方法.pptx

117.69 KB, 下载次数: 7, 下载积分: 体力 -2 点






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5