在线时间 1630 小时 最后登录 2024-1-29 注册时间 2017-5-16 听众数 82 收听数 1 能力 120 分 体力 563423 点 威望 12 点 阅读权限 255 积分 174250 相册 1 日志 0 记录 0 帖子 5313 主题 5273 精华 3 分享 0 好友 163
TA的每日心情 开心 2021-8-11 17:59
签到天数: 17 天
[LV.4]偶尔看看III
网络挑战赛参赛者
网络挑战赛参赛者
自我介绍 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
群组 : 2018美赛大象算法课程
群组 : 2018美赛护航培训课程
群组 : 2019年 数学中国站长建
群组 : 2019年数据分析师课程
群组 : 2018年大象老师国赛优
基因测序行业解决方案 7 V6 C; A Q$ L# L9 i0 t$ N
基因图被称为“上帝用以创造生命的语言”,但今天我们不谈上帝,不谈基因,我们谈谈基因在IT中的应用和现状。. P# y0 i! c6 E& Y2 ~' D' i; W* }
( u( g* N- Y" D9 ?$ b3 f8 i
段同学的基因测序行业解决方案,非常不错,赞!推荐!1 Z! f: o* y; ]
) s0 B. G. D8 _
. P5 Q7 Z( D' O X 近年来,基因行业快速发展,由原本的实验室内的科研项目逐步走向临床应用,计算模式从离线向在线演进,带动医疗和健康行业的发展的同时,也让基因行业迎来新时代。" E0 t( W: p/ c; T3 S; R8 ]/ F+ b
6 d! w( _3 S$ X 基因行业IT现状
- p% L$ c8 a) x4 m
/ k8 `! F/ U5 d D" }2 k& G 5 v6 @. s+ Q& r$ y# R& {4 z
# c3 _9 F8 m& M* W) B3 o" H 基因计算行业在现实中遇到了很多挑战,主要分为如下几部分:
/ E& p) m) U! I# V& N
7 n+ x: X3 v' c& y8 I 1、数据存储方面,由于基因测序技术的提升,测序成本降低。从最初的人类基因组开始细分扩展,目前已经涉及到肿瘤,遗传病检测。扩展到植物,远古生物,细菌,病毒,微生物的基因检测。因此数据种类和数据量是异常庞大,经常以PB为单位保存。
# `, s. B" E( n
y2 H$ y8 i* j2 n# ~9 r( g 2、数据计算方面,大规模样本的数据分析和挖掘需要海量计算资源,本地计算成本太高,扩容慢,收效更慢
) J% D) p+ A; u0 i/ h$ f. L
# v% E9 b% n& [, T9 g! G 3、数据全球化,因为基因行业的特殊性,很多样本数据需要到当地采集,如果有数据共享,就需要一个全球化,多数据中心的支持8 T) o: Z* ?" R+ }' v
/ V/ V7 \) E9 c' J 4、数据安全方面,基因数据相对比较隐私,但传统的基因公司IT能力较弱,安全措施不到位,防御能力很弱。
& d+ U1 {- R& r7 g0 C8 r 9 T h& D7 {( Q/ Q1 M
针对这些特点,我们很容易想到,云是一个很好的解决办法,为什么这么说?请听我细细道来:
2 B e% K A$ @% U. E! H
" w: {3 o" X+ b4 E1 M; H * R: d, u: A4 s! r+ y: E
( W2 q4 @9 s6 F' _ |8 n% Q/ c6 w* N5 t & h& x" b2 S* B! ~ J
2 b0 r* O, k( r& A! f# [$ y
$ T2 H( }- k6 z a% e; t6 W7 \
( W4 [, x- v4 v9 q# y' c
$ `% f0 p: A/ t+ J2 R2 } 数据计算--云本身的弹性计算能满足基因数据的挖掘和分析,能用最少的时间计算出结果。减少了用户的部署环境,计算的时间成本。
( Y7 c4 |: T8 ]* L - x( m. I( k# S& I6 {0 a! @
数据存储—云平台能提供海量的数据存储,且存储的格式多样,一般的云平台能支持文件存储,对象存储,根据数据类型还能支持冷存储(或叫归档存储)。对于PB级的数据,冷存储能减少很多客户成本。
7 ?2 |& c2 s. N/ j- P6 _2 ~! \( r a! w' Y& s+ z
数据传输—测序仪产生的大量数据需要靠专线,裸光纤网络进行传输,如果数据量为PB级的,则可以使用寄送硬盘方式传送到云厂家的数据中心。
& K/ n/ n- u. F* t# |; r4 p. z _$ V. F( j6 O$ @0 m
数据安全—云平台本身的vpc的网络隔离,高防,数据加密等安全机制可以保证数据的安全性
* V; E' M% O, U, i. D" L- W3 w7 e, [
# `8 U g! _: r p! }! ? f8 _
K# _3 c! H/ `1 a4 O
. q: T% r4 ^- c2 S4 o! l
6 a& g7 s- J4 [, x3 i ]9 b" q9 N4 x 基因行业的痛点
, s4 r/ T, Z1 r5 p! Q2 ^ 7 N/ @5 N' h: P3 S6 i5 O+ j2 M8 c
, Y3 @( }/ W+ f& h5 V/ e; X
以上说到了基因行业使用云的好处,现在说说基因行业遇到的痛点$ t9 b! L+ Q `% L
- ]6 ?# t; I0 o+ Q4 y* i. k; b 基因行业产生的原始数据台庞大,动则PB以上,如果从本地传输到云端,使用公网不知道传输到何年何月,如果使用带宽10GB的裸光纤,传输1PB数据需要连续15天,这样的时间跨度没法接受,即使采用寄送硬盘方式,也是需要很大的时间,人力,财务成本。所以,怎么解决数据端传输的云端是第一步,目前只能从远端减少数据量(比如针对基因数据研发一套数据压缩算法)
" @4 J6 J" }. K* q, f$ P3 u; M / m& s- g2 l2 s3 e. m
大量基因数据存储在云端,从主观上可能存在数据泄露的可能,这个也是公有云的弊端之一
: t) d# z+ d8 |4 U7 K ( M! \6 z N( M& y1 E
基因行业盈利模式还是集中在基因测序的医院,个人,研发机构。国内除了华大等一批上市的领头羊以外,大批的中小型企业都处于寻找商业模式的阶段。6 N- I* x6 Q& w+ x, t
9 x |( ^! ^% ?. }% b
! V0 g6 D+ ^! k; b y" N 5 M: J+ g6 L# |4 D9 G1 r$ r: \
基因测序产业链3 Z8 b- K9 S* B
) Y& N5 m2 a. {. o
( F0 v& R% j0 {, J2 y0 I& [
) c5 g3 Q. P A( [# d+ R$ k 0 k8 Q# p- h% e9 B- ]. U
国内基因测序产业链分为基础研究、上游设备端、中游测序服务端、基因大数据服务和下游应用端
% H/ H$ H7 G+ W G4 ?( z- o 7 R; C9 ]" Q5 U3 \/ [
其中基础研究主要有药物基因组学、医学基础研究、生物学基础研究、微生物宏基因组学等;上游主要是测序设备、耗材及试剂的研发;中游按照疾病诊断的流程分为疾病预防与早筛、辅助疾病诊断和药物伴随诊断;数据服务包括基因数据存储、分析和解读等;下游应用端主要为科研机构、医疗机构、药企、第三方检验中心和个人消费者。
! b2 U, J7 i8 K6 w7 R2 B
! I9 K" V( @1 o9 v# o& t" I
2 U! u! \9 X1 \- |+ i' A* V
7 g. y( X) V, g& _; s+ }" j 1 e7 S% z" [# d" y4 M
, r, q& d1 }" D* k; f
& V8 z7 ]7 L! O" V E4 M& \, M
2 J+ x- O1 a8 K) o$ Y1 }: d; e
k7 {" Y8 L6 X- z$ f# m# o k
8 A: t; {! x6 c 上游领域,目前的测序技术还停留在二代测序,部分已经使用三代测序技术。整个市场被国外基因检测仪器开发商Illumina长期处于垄断地位,国内主要是华大基因占用一定市场率。
2 N N2 Q& N ` # F6 s! P, C% C+ B
中游领域主要以基因组测序积累的数据为基础,应用场景为产前筛查、遗传病检测癌症早筛、药物分子筛选。国内市场以华大基因与贝瑞基因(贝瑞和康)为头,遥遥领先。同时有多家云计算,IT厂家提供IT技术基础,数据分析服务7 K, u5 c7 ?6 O# L8 l5 `" n! H6 y
' h; F0 i+ @1 d& k" m- ^9 P 下游领域包括:产前筛查、癌症基因检测等检测的需求人士、药厂、医院及科研机构。而目前,基因检测服务中以NIPT为代表的生育健康类服务占据了一半以上的市场,但NIPT市场华大基因和贝瑞和康已经形成垄断。
" {3 ]5 |+ i" @0 M : l# _0 I3 {) g# c. X
$ f9 ?% x& }+ l$ `
% F# s8 X @+ t+ F 7 b/ V- d' S( w) G, L( q" Q% k
- r8 r; A7 H+ u1 z9 Y# { m w2 \$ z) W/ S 基因测序应用场景
$ v' y d% i5 m: E ) e& v6 Q2 x" y& B3 x0 c% I0 `
$ y/ o- H3 X9 f& r- c$ N
: A; Z+ Z: g4 y0 e
7 A* \; k6 M1 n" W. s3 c. V 整体来说,目前基因行业的应用场景还是一片蓝海,有很多待需要开发的场景和业务,随着测序成本的降低,能应用的领域也越来越广。同时对IT技术的依赖也会越来越旺盛。" V3 s' e, v$ W" l. W
6 N2 j+ J/ R; |; U E0 k9 }
5 k' ?5 l; y7 P. |7 W
" b5 m, Q" ]3 P& f5 C: Q1 m# N
zan