来源:志阳创谈
本文约4500字,建议阅读9分钟
本文为你整理了“新冠病毒数据资源和全球研究项目”在内的一些数据类型、数据来源、数据库和平台。标签:数据收集
4 [9 U* L9 B- J8 K6 j当下,新冠病毒已经全球蔓延。中国的疫情虽然得到了有效控制,意大利、韩国、伊朗、日本和美国等国家却逐渐“沦陷”。全球新冠肺炎确诊病例人数已破百万。面对来势汹汹的疫情,科研工作者更想用自己的科研专长帮助了解这个病毒以及与其相关的社会议题。那么我们要上哪找数据去?
本文汇总并整理了包括由哈佛大学地理数据中心,中国数据研究所,武汉大学社会地理计算中心以及研究方法与数据科学实验室合作的“新冠病毒数据资源和全球研究项目”在内的一些数据类型、数据来源、数据库和平台以供参考。
基础数据
主要包括地图数据(省级,市级和县级),普查数据(人口普查和经济普查),省级、市级和县级统计数据以及其他数据。地图数据并不是一成不变的,国家级或者省级地图可能变化很小,但是到了市级或者区县的空间地图差异是很大的,并且会随着时间的变化而变化。所以基础地图的选择对研究而言就很重要。
数据来源参考
国家统计局:链接各省市地区的统计网站,提供更多官方统计报告。
http://www.stats.gov.cn/tjsj/pcsj/
国家数据:国家统计局开设网站,公布我国各个领域的宏观经济情况,权威度高。
http://data.stats.gov.cn/
中国数据在线:
https://www.china-data-online.com/
主要包括新冠病毒疫情实时大数据、相关数据库、平台。
疫情实时大数据
百度疫情实时大数据报告
https://voice.baidu.com/act/newpneumonia/newpneumonia
网易肺炎疫情实时动态播报
https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1
腾讯疫情实时追踪
https://news.qq.com/zt2020/page/feiyan.htm?from=timeline&isappinstalled=0#/global
新浪疫情实时动态追踪
https://news.sina.cn/zt_d/yiqing0121?cre=tianyi&mod=wnews&loc=3&r=-1&rfunc=97&tj=cxvertical_wap_wnews&tr=73&vt=4&pos=3
全球新冠病毒 COVID-19 研究数据集
COVID-19开放研究数据集包含了超过29000篇来自全球各地的有关冠状病毒(家族)的相关学术文章,将主要用于医学和NLP(自然语言处理)相关领域研究,以应对新冠肺炎疫情。在该数据集中,机器可读文章超过13000篇。研究人员可以通过机器学习来加速对文本的挖掘和解读,从而更加高效地寻找对抗新冠病毒的方法。
https://pages.semanticscholar.org/coronavirus-research
, C. q) M2 t! B+ @: }! w1 q新型冠状病毒专题和知识服务与科研攻关交流平台
由中国科学院维护,提供包括疫情追踪、最新动态、研究进展、领域专题等文献信息。“研究进展”部分以时间轴展示了科研人员所进行的研究活动和进展。内容持续更新,注册后可下载全文。
http://ncov.scholarin.cn/
2019新型冠状病毒信息库
由国家生物信息中心 (CNCB) / 中国科学院北京基因组研究所 (BIG)/国家基因组科学数据中心 (NGDC) / 生命与健康大数据中心 (BIGD)维护,包含病毒基因组序列发布动态、病毒基因组变异数据分析、文献查找等。
https://bigd.big.ac.cn/ncov#contact
新冠状病毒国家科技资源服务系统
由国家微生物科学数据中心/新型冠状病毒国家科技资源服务系统维护,包含病毒毒株信息、病毒电镜照片、核酸检测引物和探针序列、病毒基因组信息、科普知识等。
http://nmdc.cn/#/nCoV
COVID-19科研动态监测
由中国科学院武汉文献情报中心和中国科学院文献情报中心维护。该网站收集“2019-nCoV”国内外重要科研动态,摘编重要科研进展,每天两次报送相关科研进展,所摘编内容每天形成快报,每周将本周内相关内容按病毒溯源、流行预测、病毒检测和疾病诊断、药物研发、机理研究、政策法规等分类形成每周科研动态分类汇编。
http://stm.las.ac.cn/STMonitor/qbwnew/openhome.htm?serverId=172
3 I( D1 @! u% b2 P9 S% x, u新型冠状病毒感染肺炎防疫专利信息共享平台
由中国专利信息中心/国家知识产权局专利局专利审查协作北京中心维护,数据涵盖新冠肺炎治疗用药、预防用药、病毒检测、医疗器械、防护产品、环境消毒、废弃物处理、废水处理、人工智能及大数据应用等多领域。
http://fy.patentstar.com.cn/
新型冠状病毒肺炎专栏
由中国疾病预防控制中心维护。由疫情动态、技术方案、文献报道、世卫信息等栏目组成,能及时了解国内疫情变化以及世界卫生组织的最新举措。
http://www.chinacdc.cn/jkzt/crb/zl/szkb_11803/
新型冠状病毒肺炎科研成果学术交流平台
由科技部、国家卫生健康委、中国科协、中华医学会联合共建。不断更新汇总中华医学会系列杂志和国内其他生物医药卫生杂志发表的相关学术内容、公共学术资源,推介国外新冠肺炎相关优秀科研成果。
http://medjournals.cn/clinic/getClinicList.do?subjectId=114
+ L) v- o' F( ?' Y# }- N新型肺炎应急文献信息专栏
由国家科技图书文献中心(NSTL)建立。该专题数据库包含冠状病毒研究相关外文科技文献约350多万篇,文献类型涵盖外文期刊论文、科技图书、科技报告、专利、标准等。专题信息门户及时跟踪报道了世界卫生组织(WHO),中国国家卫生健康委员会、中国疾病预防控制中心、美国疾病预防控制中心等20余家政府机构网站公布的防控指南,以及《科学》、《新英格兰医学杂志》等30余种权威期刊的最新研究成果。内容既包括此次武汉新型冠状病毒感染、也包括SARS、MERS等相关文献。既有病原生物学、流行病学等基础研究,也包括临床诊治、药物治疗、检验检测、疫苗研究的重要内容。
https://www.nstl.gov.cn/service/coronaviridae/index.html
Novel Coronavirus Information Center
由全球最大的学术出版机构之一施普林格·自然从旗下期刊中整理了最新发表的与冠状病毒研究最相关的论文,并与相关评论文章和书籍一起汇总于专题网页,其中的所有内容可免费获取。
https://www.elsevier.com/connect/coronavirus-information-center
人口迁移数据
在新冠病毒研究的过程中,我们很难脱离人口迁徙数据来谈病毒。这里所提到的人口迁徙数据主要包括两个来源,一个是由百度迁徙提供的每日人口流动的数据,可通过爬虫技术获得。下面这两张图是2020年 1月23的武汉流动人口地图。左边是外地流向武汉市,右边反映的是武汉流向其他城市。
数据来源:百度迁徙
https://qianxi.baidu.com
但是百度的这个迁徙数据只告诉我们人口流向,却没有公布每个流向的流向大小,这就需要我们再结合另一个数据来源确定流量大小,那就是国家统计局发布的流动人口数据。3 l5 s+ E! w$ W" `9 {
这个更接近于学术界对于流动人口的定义,而百度的人口流动数据更像是一个对人口移动流量变化的记录。下图展示的是国家统计局发布的流动人口数据提供的流动人口数据:
数据来源:中国数据在线
https://china-data-online.com
健康设施数据
健康设施数据主要包括高德地图的POI(Point of Information)数据和国家统计局提供的经济普查数据。
以武汉的医院数据为例,我们通过对高德地图进行爬虫(比如通过爬虫经纬度),我们可以把武汉的医院数据整合成Excel,再把这个Excel表格的信息与之前的基础数据相结合,得到更有价值的地图数据。
数据来源:
https://lbs.amap.com
医院数据爬虫的流程包括:获取高德POI数据HTTP接口,确定POI所属类型以及所属位置的行政区划范围—>解析JSON格式数据并存储标签为pois中的POI数据,参数包括医院名称,所属POI类型,语义地址,WGS84坐标系下的坐标,所属行政区划单元—>建立国家卫生机构分类标准和高德地图POI分类标准映射关系—>对医院类型进行匹配,以省级行政区划为单位存储为Excel格式文件—>根据省、市、县区行政区划地图进行匹配和合并。
经济普查中也有医院数据。高德地图的数据没有办法告诉我们医院建立的时间,医院所有制结构(私立vs公立)以及在不同年份一个特定区域的医院数量等信息,但经济普查数据可以弥补这些数据缺失(如下图):
数据来源:
https://china-data-online.com
经济普查中的医院数据可以和高德地图数据进行匹配,同样也可以和基础数据相结合,生成与我们研究相关的空间地图数据
数据来源:
https://lbs.amap.com
除了医院数据,医疗设备与制造对于疫情防控也非常重要。这些信息也可以从经济普查当中获得。
数据来源:
https://china-data-online.com
此外,我们还有一些别的与卫生相关的数据可以运用起来。比如下图的年度卫生统计数据(中国数据在线提供)。年度统计里面详细的介绍了国家级,省级和市级区划里的医院数量,门诊数量,床位数,医护人员数以及别的卫生统计信息,可以很好的补充高德地图的缺失信息。
数据来源:
http://china-data-online.com
社会媒体数据
这部分主要反映社会舆情,主要包括微博和推特(Twitter)等社交媒体。因为这些社交媒体是主要的信息来源,对疫情预测和舆情导向等研究热点有指向作用。
中国数据研究所:
http://chinadatalab.net/
哈佛Dataverse:
http://covid-19.chinadatalab.net/
百度指数:百度旗下/以百度网民行为数据为基础的数据分享平台,支持查询需求图谱
http://index.baidu.com/
微指数:新浪微博旗下/反映微博舆情或账号发展走势的数据分析工具
https://data.weibo.com/
搜狗指数:搜狗旗下/基于搜狗用户行为的数据分享平台,同时支持搜索微信热度
http://zhishu.sogou.com/
细分行业及其他数据, d" W( I+ l5 ]* [: G: ^
主要包括各细分行业及其他类型的数据来源,包括互联网、电商、娱乐、汽车、房地产、移动端、投资行业等。疫情对各产业的影响是广泛的,影响程度和未来趋势都值得进一步研究。
互联网行业
腾讯大数据:腾讯旗下/发布与腾讯息息相关的研究报告,常会出现一些比较有趣味性的专题
https://bigdata.qq.com//reports?page=1
艾瑞网:艾瑞旗下/支持查看较新的数据报告,主研究网络媒体、电子商务、网络游戏等新经济领域。
http://report.iresearch.cn/
https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/105336794?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158968492719724845038629%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.57693%2522%257D&request_id=158968492719724845038629&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_v2~rank_v25-15-105336794.nonecase&utm_term=%E4%B8%8A%E5%BA%A7%E7%8E%87%E7%9A%84%E6%95%B0%E6%8D%AE26.jpg (266.97 KB, 下载次数: 458)
欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) | Powered by Discuz! X2.5 |