数学建模社区-数学中国

标题: 基因测序行业解决方案 [打印本页]

作者: 杨利霞    时间: 2019-4-21 14:53
标题: 基因测序行业解决方案
基因测序行业解决方案8 i+ k2 c% X7 x; v
基因图被称为“上帝用以创造生命的语言”,但今天我们不谈上帝,不谈基因,我们谈谈基因在IT中的应用和现状。/ v* E) H* |* V  u" _

: z; Q; a, N: d段同学的基因测序行业解决方案,非常不错,赞!推荐!7 w1 R8 `# t: G6 c2 e

3 S. @* p& S: k' W6 _' }5 {$ B
1 @' N* q* @2 T近年来,基因行业快速发展,由原本的实验室内的科研项目逐步走向临床应用,计算模式从离线向在线演进,带动医疗和健康行业的发展的同时,也让基因行业迎来新时代。
# G& C% G" U1 R0 O, }
( e0 N2 I$ W7 |" a: R, A4 j基因行业IT现状
  n" B9 D- b* V" F  _9 |' S; P; a, `1 x

% `  T: y- ^2 v4 V6 h+ t0 a8 h
0 g8 k8 ~- w5 a% |2 r' ~7 ]基因计算行业在现实中遇到了很多挑战,主要分为如下几部分:. b* B) j! U' X! N. q: r5 T* \6 J
: s8 `$ J/ q7 y' O2 s0 e2 P- Q
1、数据存储方面,由于基因测序技术的提升,测序成本降低。从最初的人类基因组开始细分扩展,目前已经涉及到肿瘤,遗传病检测。扩展到植物,远古生物,细菌,病毒,微生物的基因检测。因此数据种类和数据量是异常庞大,经常以PB为单位保存。
9 X2 Q0 t! L. z3 P" }/ e
" e3 r5 e( a3 F  T% d" u2、数据计算方面,大规模样本的数据分析和挖掘需要海量计算资源,本地计算成本太高,扩容慢,收效更慢
& ^4 @3 ]  y4 m2 t% A
( }3 t8 |7 ~; L8 ~3 ?, ]1 r6 A3、数据全球化,因为基因行业的特殊性,很多样本数据需要到当地采集,如果有数据共享,就需要一个全球化,多数据中心的支持
) F' y) ]! B2 F
: S! N. d# e- N& G0 v4、数据安全方面,基因数据相对比较隐私,但传统的基因公司IT能力较弱,安全措施不到位,防御能力很弱。
$ b( ?1 n( K8 S& w
- u: F5 p8 z  g; W" z! Z; Y针对这些特点,我们很容易想到,云是一个很好的解决办法,为什么这么说?请听我细细道来:8 \; ?2 Y" o: x" W* @9 R' Q
; x2 X- S2 y, K7 }+ B! d: ~
$ B' F% I! [! H' M. M6 d- f

$ U  Y) o7 E9 V8 V: ]
/ H- U: |* V. F% P* i8 j( n& D- n# v1 A0 @% Y1 K$ b

3 |8 k6 z$ i# M0 r8 o! y( b
! g- t" a8 E& p: C# f9 C$ e1 v% a
5 E# J# q2 u3 C7 A8 w数据计算--云本身的弹性计算能满足基因数据的挖掘和分析,能用最少的时间计算出结果。减少了用户的部署环境,计算的时间成本。( Y: N( B! W. D3 H9 J- o" W

, h# e& f1 [: t2 }. ]# _2 [数据存储—云平台能提供海量的数据存储,且存储的格式多样,一般的云平台能支持文件存储,对象存储,根据数据类型还能支持冷存储(或叫归档存储)。对于PB级的数据,冷存储能减少很多客户成本。/ y7 k) q0 M; e8 y( g) f0 _9 }

) W$ i3 }. G6 x  k数据传输—测序仪产生的大量数据需要靠专线,裸光纤网络进行传输,如果数据量为PB级的,则可以使用寄送硬盘方式传送到云厂家的数据中心。
5 l3 ]9 u5 k8 c7 A9 x9 o4 R, }3 I5 [+ _3 X6 ?
数据安全—云平台本身的vpc的网络隔离,高防,数据加密等安全机制可以保证数据的安全性
1 E; a  W8 Z& t2 P# h" D4 W! n
5 b3 ^% V8 A/ {9 q2 Z+ Q( |' E& Q; |

5 ]/ x5 b' i, t; q0 v
9 O/ X. s8 B" |8 j0 x5 u基因行业的痛点
4 \% l/ T' G. w0 o; L; Q
0 C6 E' k0 x! V- U# Y" {  W1 r6 r* v' i4 v
以上说到了基因行业使用云的好处,现在说说基因行业遇到的痛点
5 c8 j3 u* M4 {1 {
! k5 T( x" x' s  g2 k4 _基因行业产生的原始数据台庞大,动则PB以上,如果从本地传输到云端,使用公网不知道传输到何年何月,如果使用带宽10GB的裸光纤,传输1PB数据需要连续15天,这样的时间跨度没法接受,即使采用寄送硬盘方式,也是需要很大的时间,人力,财务成本。所以,怎么解决数据端传输的云端是第一步,目前只能从远端减少数据量(比如针对基因数据研发一套数据压缩算法)
" c# ~5 l  r  y' _2 S9 H( P' x* Z, V# U3 N' r& |( B, D& h+ k
大量基因数据存储在云端,从主观上可能存在数据泄露的可能,这个也是公有云的弊端之一: D+ ~; x" m$ \- w) w

: {5 D( T4 g2 S8 p基因行业盈利模式还是集中在基因测序的医院,个人,研发机构。国内除了华大等一批上市的领头羊以外,大批的中小型企业都处于寻找商业模式的阶段。
- e0 d+ M3 d" Z) w, e7 b+ s
5 ], H2 g2 {- h0 T8 }) }* j. L
9 m7 [& r9 b; E2 I( J8 J+ u! K; b4 X2 S$ O" E$ I
基因测序产业链% D# l" x, b# w& _9 d" P) t9 y

: C5 o2 l2 M" l. M+ a) P- g1 Q. }2 z
( Z9 ^1 y' q+ B; t3 Z

5 Y, |" Z: v, r: Y/ }- `- b国内基因测序产业链分为基础研究、上游设备端、中游测序服务端、基因大数据服务和下游应用端  n! Q& o$ U' I* c
8 U  G( |" N2 M
其中基础研究主要有药物基因组学、医学基础研究、生物学基础研究、微生物宏基因组学等;上游主要是测序设备、耗材及试剂的研发;中游按照疾病诊断的流程分为疾病预防与早筛、辅助疾病诊断和药物伴随诊断;数据服务包括基因数据存储、分析和解读等;下游应用端主要为科研机构、医疗机构、药企、第三方检验中心和个人消费者。
# f7 {( d! N( C  f4 F: T
7 W. E$ X9 Q4 O, f, t  Z$ ?5 W/ G

$ y+ F+ N& W' |4 z! F  h, r! L- T, @9 C% T/ ^! c* v

7 i* m& v1 {  g: x0 S8 h& l" M# E- x1 H4 I# C

7 F; k4 y6 C0 v- {' [
/ f; N8 D9 u4 C/ d/ W4 [. @) H1 ]# U1 R& I* _
上游领域,目前的测序技术还停留在二代测序,部分已经使用三代测序技术。整个市场被国外基因检测仪器开发商Illumina长期处于垄断地位,国内主要是华大基因占用一定市场率。3 a+ {( F9 l# b# v; S

" P5 p9 [. J9 }: Y9 X中游领域主要以基因组测序积累的数据为基础,应用场景为产前筛查、遗传病检测癌症早筛、药物分子筛选。国内市场以华大基因与贝瑞基因(贝瑞和康)为头,遥遥领先。同时有多家云计算,IT厂家提供IT技术基础,数据分析服务- T, U+ E# A3 s

/ G1 l4 f% ~+ G3 a下游领域包括:产前筛查、癌症基因检测等检测的需求人士、药厂、医院及科研机构。而目前,基因检测服务中以NIPT为代表的生育健康类服务占据了一半以上的市场,但NIPT市场华大基因和贝瑞和康已经形成垄断。
$ f3 n+ U! g/ L# n4 j( V; U9 h8 b

0 N9 |' Z6 |9 s+ a3 F( K9 I1 y3 b$ \3 V3 u* l  ]' I- n+ }

4 s/ G1 S, y$ s
/ H% D4 I0 z5 X7 c) |- X) Q4 q基因测序应用场景. k2 T' |4 A. |! u

/ r. x4 y, F& l& F1 [7 l$ R, n7 i; ~* A( z5 n- _3 }
( {! J/ l3 ?2 t- R5 s
% \& C7 V7 E- i% G5 n+ v7 u' B6 O
整体来说,目前基因行业的应用场景还是一片蓝海,有很多待需要开发的场景和业务,随着测序成本的降低,能应用的领域也越来越广。同时对IT技术的依赖也会越来越旺盛。
( [  x3 E3 J+ v! b# C
' a  E' }7 ~) H3 j: U1 t4 E9 j) g+ P/ ]( }; B2 k3 F5 j! u3 h) D

% e# a! _' Y& g3 g- O+ ]

数学建模解题思路与方法.pptx

117.69 KB, 下载次数: 7, 下载积分: 体力 -2 点






欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5