- 在线时间
- 514 小时
- 最后登录
- 2023-12-1
- 注册时间
- 2018-7-17
- 听众数
- 15
- 收听数
- 0
- 能力
- 0 分
- 体力
- 40219 点
- 威望
- 0 点
- 阅读权限
- 255
- 积分
- 12777
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 1419
- 主题
- 1178
- 精华
- 0
- 分享
- 0
- 好友
- 15
TA的每日心情 | 开心 2023-7-31 10:17 |
|---|
签到天数: 198 天 [LV.7]常住居民III
- 自我介绍
- 数学中国浅夏
 |
可视化实例基于R语言的全球疫情可视化$ n9 W1 B. H4 B
目录
5 a6 u9 ^9 F3 {一、数据介绍及预处理4 n: v8 U x& H6 q; n
二、新增确诊病例变化趋势* _5 X; _% r, r2 s$ w( T& n) K
三、新增确诊病例全球地理分布
8 ^2 b+ B3 \; I1 D' A* z四、累计确诊病例动态变化图$ c: h5 |9 h4 b
一、数据介绍及预处理
: s, |6 `, C, ^) w( g! L1. 基本字段介绍# i5 h- X, X l# w$ }
! b& M' r# ~. x" f' f! v1 [9 @
字段名 含义
2 i+ s) K7 u. k% y& u2 ]! ~Province/State 省/州
! D2 I2 j/ y( V! aCountry/Region 国家/地区
. a8 c* c, q. H. Z; o# R2 pLat 纬度, m" L3 [& ]) f v
Long 经度8 ?% ]% B& N) ?$ K5 }
1/22/20-12/7/20 每日累计确诊病例
$ _: L: h4 L# ]' s4 a+ W: P1 h' k) i8 m2 p- u" T
" y! F: @# c. o2 C- V2 D; A
4 l: K# Z) D4 h
2. 数据预处理 - 整理某些国家的名称,如Korea, South改为 Korea
- 将日期列字段修改为相应的日期格式
- [color=rgba(0, 0, 0, 0.749019607843137)]#加载本次可视化所需包[color=rgba(0, 0, 0, 0.749019607843137)]library(readr) [color=rgba(0, 0, 0, 0.749019607843137)]library(sp) #地图可视化[color=rgba(0, 0, 0, 0.749019607843137)]library(maps) #地图可视化[color=rgba(0, 0, 0, 0.749019607843137)]library(forcats)[color=rgba(0, 0, 0, 0.749019607843137)]library(dplyr)[color=rgba(0, 0, 0, 0.749019607843137)]library(ggplot2)[color=rgba(0, 0, 0, 0.749019607843137)]library(reshape2) [color=rgba(0, 0, 0, 0.749019607843137)]library(ggthemes) #ggplot绘图样式包[color=rgba(0, 0, 0, 0.749019607843137)]library(tidyr)[color=rgba(0, 0, 0, 0.749019607843137)]library(gganimate) #动态图[color=rgba(0, 0, 0, 0.749019607843137)] d1 X9 `1 G' t' P8 I* h6 c
[color=rgba(0, 0, 0, 0.749019607843137)]#一、国家名词整理[color=rgba(0, 0, 0, 0.749019607843137)]data<-read_csv('confirmed.csv')[color=rgba(0, 0, 0, 0.749019607843137)]data[data$`Country/Region`=='US',]$`Country/Region`='United States'[color=rgba(0, 0, 0, 0.749019607843137)]data[data$`Country/Region`=='Korea, South',]$`Country/Region`='Korea'[color=rgba(0, 0, 0, 0.749019607843137)]- Z1 Y) i. r) c+ H( Y
[color=rgba(0, 0, 0, 0.749019607843137)]information_data<-data[,1:4] #取出国家信息相关数据[color=rgba(0, 0, 0, 0.749019607843137)]inspect_data<-data[,-c(1:4)] #取出确诊人数相关数据[color=rgba(0, 0, 0, 0.749019607843137)]
$ C" `: S+ t/ G+ \[color=rgba(0, 0, 0, 0.749019607843137)]#二、日期转换[color=rgba(0, 0, 0, 0.749019607843137)]datetime<-colnames(inspect_data)[color=rgba(0, 0, 0, 0.749019607843137)]pastetime<-function(x){[color=rgba(0, 0, 0, 0.749019607843137)] date<-paste0(x,'20')[color=rgba(0, 0, 0, 0.749019607843137)] return(date)[color=rgba(0, 0, 0, 0.749019607843137)]}[color=rgba(0, 0, 0, 0.749019607843137)]datetime1<-as.Date(sapply(datetime,pastetime),format='%m/%d/%Y')[color=rgba(0, 0, 0, 0.749019607843137)]colnames(inspect_data)<-datetime1[color=rgba(0, 0, 0, 0.749019607843137)]2 o' f9 i( w7 Y* D* N: S
[color=rgba(0, 0, 0, 0.749019607843137)]#合并数据,data为累计确诊人数数据(预处理后)[color=rgba(0, 0, 0, 0.749019607843137)]data<-cbind(information_data,inspect_data)[color=rgba(0, 0, 0, 0.749019607843137)]二、新增确诊病例变化趋势#由累计确诊病例计算新增确诊病例8 s' }6 _0 {% s+ F W/ }+ z
inspect_lag_data<-cbind(0,inspect_data[,1 ncol(inspect_data)-1)])9 k( I. F% c) R. @" q
increase_data<-inspect_data-inspect_lag_data
! E" ~6 f2 Y6 U+ I
) v. _: i$ @" f7 {* n#合并数据,new_data为新增确诊人数数据
* E% a. \1 B$ f2 c1 \* V6 u( Qnew_data<-cbind(information_data,increase_data)6 N3 m; Y# ?; U' f+ x
! z; X: g( ?& f8 V
1. 中国新增确诊病例变化趋势/ m' b+ Q* x" w% a! h4 ~& X
#合并所有省份新增确诊人数
/ w9 p8 p6 [) ]3 l$ Achina<-new_data[new_data$`Country/Region`=='China',]8 d2 k: A: F3 X. s. O9 A
china_increase<-data.frame(apply(china[,-c(1:4)],2,sum))) Y6 G) C3 G) i; K5 D2 ^9 j
colnames(china_increase)<-'increase_patient'
( u' [, B& n& ~+ B% V. u* Ychina_increase$date<-as.Date(rownames(china_increase),format="%Y-%m-%d")2 a* ~7 m. g- u. g5 }# e5 ]3 u0 |
# d* C# K# o9 _' Z; e% c& O8 \ggplot(china_increase,aes(x=date,y=increase_patient,color='新增确诊人数'))+geom_line(size=1)+
& q! N( P8 Q. M: L- @* A+ o scale_x_date(date_breaks = "14 days")+ #设置横轴日期间隔为14天(注意:此时的date列必须为日期格式!)( d, j; p7 o+ I. F2 I' w( Y! }
labs(x='日期',y='新增确诊人数',title='2020年1月22日-2020年12月7日中国新增确诊人数变化趋势图')+
5 R% ~7 S5 ^8 p9 F theme_economist()+ #使用经济学人绘图样(式ggthemes包)
3 ^0 Z; }* _6 \6 f3 C7 _1 `- \% G theme(plot.title = element_text(face="plain",size=15,hjust=0.5),
# P2 v8 T/ H! t+ r5 N1 K6 ~* P axis.title.x = element_blank(),# G. K' T$ J8 O7 d, U1 X8 _ P3 S
axis.title.y = element_text(size=15),5 E, ]- y) S0 B& ~9 |
axis.text.x = element_text(angle = 90,size=15),
6 j/ |# n1 i5 l0 A. t, Z& n axis.text.y = element_text(size=15),2 O3 g0 I3 g3 R' V7 s( V
legend.title=element_blank(),
6 S, x+ H! }- q legend.text=element_text(size=15))5 A/ F* N' U% a" _
+ M5 o7 Z+ Q4 P' ?6 Z7 c ![]()
0 E; \. h6 k4 i. c/ @) W$ K2. 美国新增病例变化趋势
( T5 N) S: n* e8 yus<-new_data[new_data$`Country/Region`=='United States',]
- o0 \8 S. J* ?us_increase<-gather(us,key="date",value="increase_patient",'2020-01-22':'2020-12-07')
2 ?4 r- C: H! b) \( ius_increase$date<-as.Date(us_increase$date)
$ _$ S9 n$ R% `0 |4 |ggplot(us_increase,aes(x=date,y=increase_patient,color='新增确诊人数'))+geom_line(size=1)+$ |2 `5 S" }2 a' e- H5 a
scale_x_date(date_breaks = "14 days")+ #设置横轴日期间隔为14天
# V% j+ u- k: s: B labs(x='日期',y='新增确诊人数',title='2020年1月22日-2020年12月7日美国新增确诊人数变化趋势图')+
9 U% W$ j, k4 T theme_economist()+ #使用经济学人绘图样(式ggthemes包)
) s) b3 {# |3 h! b4 z# Z+ L3 K4 [ theme(plot.title = element_text(face="plain",size=15,hjust=0.5), O$ d9 s% Q! X7 F2 ^2 [
axis.title.x = element_blank(), B% q# Q" P! g, K' u
axis.title.y = element_text(size=15),, e3 T8 W+ f' K/ V4 w
axis.text.x = element_text(angle = 90,size=15),
0 U- {; W8 F; |$ E1 s' d; @ axis.text.y = element_text(size=15),
8 z; ]/ Q* L2 T; W& u" Y legend.title=element_blank(),
3 y' p9 Q& ^% ?% ~% S3 f legend.text=element_text(size=15))
# u. H* U7 p. I& ^. e2 z
3 Q& K% B; o( v4 c/ y![]()
' |& c; M7 d9 K; s# B3. 全球新增病例变化趋势
0 p. {6 T! p7 w5 Q0 Y# ?total_increase<-data.frame(apply(new_data[,-c(1:4)],2,sum))
7 u" Z4 {( z: Q; n' o' L- Pcolnames(total_increase)<-'increase_patient'
A, _& U$ a' j) Z! u; W# `. wtotal_increase$date<-as.Date(rownames(total_increase),format="%Y-%m-%d")% \( ]" ^4 Q- ?! x \+ `
ggplot(total_increase,aes(x=date,y=increase_patient,color='新增确诊人数'))+geom_line(size=1)+! R u7 c$ ^7 T O P
scale_x_date(date_breaks = "14 days")+
& M- \! @& t' n3 x& b l! I labs(x='日期',y='新增确诊人数',title='2020年1月22日-2020年12月7日全球新增确诊人数变化趋势图')+2 H1 v- E( f! n$ c2 F( b! G
theme_economist()+: V! p q( t- G. e# k
scale_y_continuous(limits=c(0,8*10^5), #考虑数字过大,以文本形式标注y轴标签8 V7 j% x, _0 H! f" j
breaks=c(0,2*10^5,4*10^5,6*10^5,8*10^5),
" j6 q; s$ q1 L8 V+ L$ ]8 X labels=c("0","20万","40万","60万","80万"))+
! r) u! t+ y. B3 t4 d M theme(plot.title = element_text(face="plain",size=15,hjust=0.5),
' h. H# R- J r0 p* M. B axis.title.x = element_blank(),
# @# P" d& j( }! d) b' [- [* u axis.title.y = element_text(size=15),
; L! n) w8 T2 P0 Y axis.text.x = element_text(angle = 90,size=15),
. t% N8 W, H" F; V1 x axis.text.y = element_text(size=15), S2 T9 G) x. i
legend.title=element_blank(),
+ l* d+ E0 D C9 R legend.text=element_text(size=15))
' s7 N5 ~. f9 k, e. A" N% F z% A
- G2 a q0 z+ T- A![]()
8 N% {- ?1 k. y) [, U三、新增确诊病例全球地理分布4 y# \ Z) \9 t+ ~ |
mapworld<-borders("world",colour = "gray50",fill="white")
2 F- E1 T! ^/ E# jggplot()+mapworld+ylim(-60,90)+
j, Z4 p2 t) ?2 f3 C. T4 @* G geom_point(aes(x=new_data$Long,y=new_data$Lat,size=new_data$`2020-01-22`),color="darkorange")+
5 c0 l7 L" W& l7 ~$ }1 B; i scale_size(range=c(2,9))+labs(title="2020年1月22日全球新增确诊人数分布")+% P5 o& a4 o m" c
theme_grey(base_size = 15)+7 V! u5 G" E- ^) ]) d1 K) v
theme(plot.title=element_text(face="plain",size=15,hjust=0.5),
! ^. a" T: G- E7 O9 @ Y8 {) Y7 b0 ? legend.title=element_blank())
1 v8 V( T" S* L, F7 _$ o* H/ g5 E' { G: _* o
ggplot()+mapworld+ylim(-60,90)+
1 F2 [4 M& I/ z5 q; z/ m; x2 ~ geom_point(aes(x=new_data$Long,y=new_data$Lat,size=new_data$`2020-11-22`),color="darkorange")+
+ N% D( C2 Z; I: s2 T3 F# o scale_size(range=c(2,9))+labs(title="2020年11月22日全球新增确诊人数分布")+/ i% l" P5 x5 Y q* k7 L8 m
theme_grey(base_size = 15)+! D5 g q* W* O4 X3 d
theme(plot.title=element_text(face="plain",size=15,hjust=0.5),
, W% N3 S9 |/ I! ~9 a* P0 F. \ legend.title=element_blank())5 g" e$ s M4 l
! ]0 ?" o j0 J0 ~) }1 c( v
![]() ![]()
! E8 ^7 K5 F7 a6 C5 \ j s四、累计确诊病例动态变化图1. 至12月7日全球累计病例确诊人数前十国家 1 M5 n8 ^1 A6 W2 e" S
cum_patient<-data[c("Country/Region","2020-12-07")] cum_patient<-cum_patient[order(cum_patient$`2020-12-07`,decreasing = TRUE),][1:10,] colnames(cum_patient)<-c("country","count") cum_patient<-mutate(cum_patient,country = fct_reorder(country, count)) cum_patient$labels<-paste0(as.character(round(cum_patient$count/10^4,0)),"万") ggplot(cum_patient,aes(x=country,y=count))+ geom_bar(stat = "identity", width = 0.75,fill="#f68060")+ coord_flip()+ #横向 xlab("")+ geom_text(aes(label = labels, vjust = 0.5, hjust = -0.15))+ labs(title='至2020年12月7日累计确诊病例前十的国家')+ theme(plot.title = element_text(face="plain",size=15,hjust=0.5))+ scale_y_continuous(limits=c(0, 1.8*10^7)) & g, d* x/ |! {
2. 五国(India、Brazil、Russia、Spain、Italy)累计确诊病例动态变化图3 g& b% d& {/ t) G B$ s
cum_patient_time<-gather(data,key="date",value="increase_patient",'2020-01-22':'2020-12-07')
, q/ O N% ?4 g* ?: n2 y5 f6 Gcolnames(cum_patient_time)<-c(" rovince","Country","Lat","Long","date","increase_patient")6 v6 o" }6 N% m w% ]% i: Z1 N
five_country<-subset(cum_patient_time,Country %in% c("India","Brazil","Russia","Spain","Italy"))' I" U+ g' J9 b2 b3 K2 ^9 A
five_country$date<-as.Date(five_country$date)
! Z4 V9 Y/ c+ W* Q
( k( N0 D) {# B6 @ggplot(five_country, 5 b; q6 w$ o7 L) K! |* y8 B
aes(x=reorder(Country,increase_patient),y=increase_patient, fill=Country,frame=date)) +
D+ d* L+ L4 s; T( `2 g, d% Y geom_bar(stat= 'identity', position = 'dodge',show.legend = FALSE) +
4 s, M1 q; _1 O. K( R' S geom_text(aes(label=paste0(increase_patient)),col="black",hjust=-0.2)+
! N* S" n: I5 M: x& {7 ~ scale_fill_brewer(palette='Set3')+ #使用Set3色系模板: v/ N. x H: v# Z1 P+ E4 r
theme(legend.position="none",3 V7 H& A2 n- R" K0 M% Z5 i8 a
panel.background=element_rect(fill='transparent'),5 u3 N+ P0 i9 I& n
axis.text.y=element_text(angle=0,colour="black",size=12,hjust=1),+ [+ i6 h0 o0 V
panel.grid =element_blank(), #删除网格线
{+ W$ o& w9 H8 `% K" X+ c axis.text = element_blank(), #删除刻度标签# F% Q( |' m1 S6 J3 ~7 C/ p* e. d0 H( M
axis.ticks = element_blank(), #删除刻度线
: X2 A- W8 h4 S! K! D P { )+( V' r8 l6 `" P$ C9 S2 h4 w
coord_flip()+
$ u0 f) n* @/ v6 A transition_manual(frames=date) + #动态呈现
1 H+ }0 W" x6 d5 v& Q7 Y labs(title = paste('日期:', '{current_frame}'),x = '', y ='五国累计确诊病例增长')+ 8 Y% _' t8 } Y. I
theme(axis.title.x = element_text(size=15))+4 a' G) W& ~! G8 L# H7 L2 V
ease_aes('linear')
3 b( w4 G5 w( b: _# {1 J, w: _3 P6 T' T" o2 U
anim_save(filename = "五国累计确诊病例增长动态图.gif")0 ]- a' v- q7 }% B- O8 q
( j7 [& q8 _- I7 I/ j+ V
6 c) u, U6 n) |6 Y6 |
, d0 a0 u! v. C" [' r+ g; X
- ?' [. F4 a$ V% l5 ^ Q# D' o2 x
8 v) u3 c1 {: E0 [' x
|
zan
|