) u8 n' F9 O5 j! U(1)写作缘由 ! g$ d) V1 ^1 k(2)统计描述: 1 {* f/ P: a9 {" p追加用excel 做频率统计 1 V% v- L/ Z5 o2 h& Q; H: p(3)相关分析(点二列相关 )9 U* [- Z# _8 |. M# e7 A0 X
(4)回归分析* ]% |. l' Q6 |& G
(5)特征选择和数据预处理. G* m0 f* |! p. W+ K
(6)缺失值的填充 8 ^# m. f& C" N+ P, f(7)文档编辑的一些技巧+ W" e+ Z, m% U- A
(8)团队合作的一些心得 ) F. k& Y1 h3 W- O! u* Z# U(1)写作缘由 ; u. N* T% g' z3 }- L" Z M/ D# D V0 x, X( R7 W/ b% X
在数学模型与优化的大作业中,遇到要对数据集进行统计描述、相关分析、回归分析、特征选择思路、数据预处理,因此就稍微研究了下/ q. s; V! Y# m( f) r$ @
; x% _- I1 K' Y/ w! e
(2)统计描述: 3 U/ G9 {6 q7 s- _4 N X$ V$ n8 A/ n7 a$ x
① 频率统计 1 L, m7 g- T& W4 }$ J. R3 u( j% P② 中位数 ' k$ v/ v4 X& x
③ 众数 , v6 ^1 e/ _1 K$ m/ {$ S
④ 平均数 ) {5 L3 a* D" [( C& v⑤ 方差 1 B$ @/ f& ]- `" Q: m
⑥ 标准差 . p, n2 Y( l" Q7 J; s0 k5 I( k
用spss软件,可以很方便快捷,具体的spss可以随意参考一本spss的书籍即可 8 w+ s% T/ O# {- n8 @
% ?9 E6 P. k& P
追加用excel 做频率统计4 B3 i# ]5 |* { @* ]9 m
1 l' Z2 `" h( d! u' G! P; m: r0 Q& phttps://jingyan.baidu.com/article/219f4bf7f1eee4de442d383f.html: Y( V/ Y* I/ _( R0 c- W
0 ~3 \" F8 Q4 k' }+ x
(3)相关分析(点二列相关 ) _; o) L$ z$ k: f : X2 r5 v( D3 Z ; X/ [/ I$ A! t" ]" w" z& j' c- t+ | a; E( s+ o2 x
3 I- L, k! f4 ^5 R- O Q f8 g
1 [8 u G9 k( h3 {0 h(4)回归分析: q* g; I5 F+ c% T" B, J
4 i) f) t& I; u, d* ~
Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。( C9 z6 ?. W% {: [; H0 d5 A
2 Y ~! R' d3 d' ]$ \
因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。5 r* F& D" e3 Y, z* J
! y. o; t) {. l% ~% w) |0 n3 ]5 u
回归分析一般有这几个操作: 4 s9 ?: Q/ z! i0 ^① 设置筛选条件,刷选数据集 valid $ x$ M& y: Z( ~6 U# U8 W R8 z v4 b3 K# s( V- t
" ^9 ?$ T7 A) q0 `4 G! \5 `$ [2 O9 c' l5 Z2 ~3 R/ Y$ ^ K5 T
② 模型拟合度检验 , L1 e- d! ^" K1 ^7 C7 l* {1 C! [( [* i, U2 @. m
+ C l4 `. f( I7 Y% H9 i# I: i+ L a0 J& d) T/ q, d8 X* M
③ 预测的模型参数 4 Q6 u8 i; ]/ x / y( R' F# ~3 N' |& J. p④ 预测结果,准确率* l4 Y: r( o8 u0 U9 u& m
. V% P' q. C4 b# d, E q! o2 K8 k# @ 5 e# A$ i8 f- Y: N+ {: L) K! P! a' H H! y" ` g+ q
6 r( d! X( {! z
(5)特征选择和数据预处理. r- _: e0 G; t
$ q+ j. |8 I! o" u6 ^; D- A
特征选择,主要是gzh的想法 ; F! b* \1 B. Y% W
特征筛选的思路: ! N6 k8 ?2 A+ j2 E3 a分类变量用1 2 3 4 离散值 y" }/ M- ^5 X4 L# W; T2 L0 O对于搜索记录的变量1:用 含敏感词/搜索记录的比 作为值 连续值 " `9 o* v2 ]. l K6 ^0 G对于搜索记录的变量2:用 含敏感类/搜索记录的比 作为值 连续值. v) E# s5 X; {4 R$ y! ] W
8 ]3 J" b% q. E" w
注意了: . _3 N- Z3 @5 e; p8 G. _6 C
筛选特征的时候,重复性要考虑、缺失值要考虑) @5 X8 ~1 d+ N6 O: ^% I8 J! C) `
# o; l. k3 U- M(6)缺失值的填充 , T8 z) s2 v8 U' u+ m3 r& j: S" K5 L2 n- G
7 L5 j* U6 B8 z' D1 z) r
% P$ y" e% \4 Q0 s* Y: |8 W
(7)文档编辑的一些技巧6 F& M2 @, r2 @4 F: O' i2 Y2 `6 u' u
]7 T2 M" @' A5 R M Shttps://blog.csdn.net/qq_26769591/article/details/80848841 s) B$ ?1 }9 m: b7 \) D0 C3 M( X6 s; s5 w
(8)团队合作的一些心得" d: t m; V! I/ ~# O, z