数学建模社区-数学中国

标题: 关于马尔科夫的那点事(详细介绍马尔科夫模型、马尔科夫链) [打印本页]

作者: 1440359316    时间: 2021-10-12 15:09
标题: 关于马尔科夫的那点事(详细介绍马尔科夫模型、马尔科夫链)
前言:我发现网上很多博客在讲马尔科夫相关的知识点的时候, 总是讲的不是很清楚,有的纯粹只关注理论,看不太懂,有的一上来就搞几个算例,更是一片懵逼,有的又将一些概念一会儿换一个说法,一会儿是马尔科夫过程,一会儿是马尔科夫模型,一会儿是马尔科夫链,傻傻分不清楚,也不好理解,决定自己抽点时间,好好写一下,会详细介绍马尔科夫模型、马尔科夫链、隐马尔可夫模型、条件随机场等相关的概念和案例,本文为第一篇。文中的理解方式是按照自己的理解方式来叙述的,不适合于每个人。- Z3 s. ]5 k' m! t4 y

) M4 F. u1 L# o- I2 k一、马尔科夫模型
* ]$ E1 r/ d$ f6 T1.1 马尔可夫过程
9 u; B" S* `5 o8 e$ t$ G5 H3 l8 Q, c5 X4 T$ e: d5 C
       马尔可夫过程(Markov process)是一类随机过程。由俄国数学家A.A.马尔可夫于1907年提出。该过程具有如下特性:在已知目前状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变 (过去 )。例如森林中动物头数的变化构成——马尔可夫过程。在现实世界中,有很多过程都是马尔可夫过程,如液体中微粒所作的布朗运动、传染病受感染的人数、车站的候车人数等,都可视为马尔可夫过程。(这里虽然我也不清楚这些现象到底是不是,姑且就认为是吧!)
0 L. ^$ p9 d% c! E' g
- p" \' b9 j6 R8 S1 ~7 A2 a; S3 }8 R" L马尔科夫过程中最核心的几个概念:过去,现在,将来。其中最核心的在于“现在”如何理解。
+ p+ k0 r5 P! W" r! Q) l
5 \" ?, i3 @) k" x( f在马尔可夫性的定义中,"现在"是指固定的时刻,但实际问题中常需把马尔可夫性中的“现在”这个时刻概念推广为停时(见随机过程)。例如考察从圆心出发的平面上的布朗运动,如果要研究首次到达圆周的时刻 τ以前的事件和以后的事件的条件独立性,这里τ为停时,并且认为τ是“现在”。如果把“现在”推广为停时情形的“现在”,在已知“现在”的条件下,“将来”与“过去”无关,这种特性就叫强马尔可夫性。具有这种性质的马尔可夫过程叫强马尔可夫过程。在相当一段时间内,不少人认为马尔可夫过程必然是强马尔可夫过程。首次提出对强马尔可夫性需要严格证明的是J.L.杜布。直到1956年,才有人找到马尔可夫过程不是强马尔可夫过程的例子。马尔可夫过程理论的进一步发展表明,强马尔可夫过程才是马尔可夫过程真正研究的对象。& N  {0 `) z+ ?5 _7 G" E; [
5 Z8 [4 Q( T% f% t( I8 Z1 C. L! ^
(这段话实在是太过于抽象了,不好理解,心里有数就行,因为这里的过去、现在、将来和我们生活中是有所差别的,不太好理解!)4 K3 Q1 b3 H  i- @: c

4 {2 T( t/ g6 }所以:一个马尔科夫过程就是指过程中的每个状态的转移只依赖于之前的 n个状态,这个过程被称为 n阶马尔科夫模型,其中 n是影响转移状态的数目。最简单的马尔科夫过程就是一阶过程,每一个状态的转移只依赖于其之前的那一个状态,这也是后面很多模型的讨论基础,很多时候马尔科夫链、隐马尔可夫模型都是只讨论一阶模型,甚至很多文章就将一阶模型称之为马尔科夫模型,现在我们知道一阶只是一种特例而已了。
( `+ \" T5 D  b
8 V& S! k* P0 s对于一阶马尔科夫模型,则有:) F. X( _2 |; ?8 E% I
( g  P$ b. G2 }1 l) u
如果第 i 时刻上的取值依赖于且仅依赖于第 i−1 时刻的取值,即
5 N! N3 Q" u+ d/ d& {( z% f4 }5 A4 i
1 e3 {8 f- V& l/ O2 a 马1.png
8 ]. T9 }  T5 }# E# i' ?3 w- P; m6 _& b% U0 z! a/ |' e3 x
​ 从这个式子可以看出,xi 仅仅与 xi-1有关,二跟他前面的都没有关系了,这就是一阶过程。
7 G, T4 N5 D0 {1 @2 S; f
, U4 ^: _/ P- J$ q9 Q& r7 k. y2 ?8 `. j
总结:马尔科夫过程指的是一个状态不断演变的过程,对其进行建模后称之为马尔科夫模型,在一定程度上,马尔科夫过程和马尔科夫链可以打等号的。
/ s/ [  a8 M6 m$ W* Q5 X; P+ G' m) ^) _* C
1.2 马尔科夫性(无后效型)
  z. t; I! h. B; i  g, |5 o2 d  l
$ w0 m- B; N0 `$ n5 J5 _在马尔科夫过程中,在给定当前知识或信息的情况下,过去(即当前以前的历史状态)对于预测将来(即当前以后的未来状态)是无关的。这种性质叫做无后效性。简单地说就是将来与过去无关,值与现在有关,不断向前形成这样一个过程。1 d6 b" T; Y- W9 H( e
  L- T0 [+ K1 l* q5 x6 u
1.3 马尔可夫链2 h" P+ P# l' p+ i& q7 z  G0 b5 H

6 D/ |& p' u- a时间和状态都是离散的马尔可夫过程称为马尔可夫链,简记为Xn=X(n),n=0,1,2…马尔可夫链是随机变量X1,X2,X3…的一个数列。
+ O9 d; Q$ N! W4 `1 s* p1 ^2 S1 g" f- U7 S* E/ b
这种离散的情况其实草是我们所讨论的重点,很多时候我们就直接说这样的离散情况就是一个马尔科夫模型。5 m2 j' q3 m" p4 l# R  S8 s

5 \+ r: ~- x5 B- H2 o' e( t(1)关键概念——状态空间& m  N1 H8 `( Z
7 z1 n& v# s9 l  o
马尔可夫链是随机变量X1,X2,X3…Xn所组成的一个数列,每一个变量Xi 都有几种不同的可能取值,即他们所有可能取值的集合,被称为“状态空间”,而Xn的值则是在时间n的状态。( l3 ]: S2 _, E. p

9 B' D1 s( j& V. f(2)关键概念——转移概率(Transition Probability)
) q" h: m2 [- s+ D& q
: S9 D# M' z! m7 [& N马尔可夫链可以用条件概率模型来描述。我们把在前一时刻某取值下当前时刻取值的条件概率称作转移概率。
2 n# V" x( _  I4 r. G4 Y. f7 s
& u! u% t9 n6 u  l4 T 马2.png
1 H7 S8 V# C# c7 X) X" Y% k( }6 ?# C" i6 ?# I
上面是一个条件概率,表示在前一个状态为s的条件下,当前状态为t的概率是多少。
& P6 ?) L7 S, a$ D0 R' @5 u! Y& a) K8 h
(3)关键概念——转移概率矩阵
  w# T0 k2 a1 \; |6 T2 q% O+ \* }  K+ B) n( n+ |
很明显,由于在每一个不同的时刻状态不止一种,所以由前一个时刻的状态转移到当前的某一个状态有几种情况,那么所有的条件概率会组成一个矩阵,这个矩阵就称之为“转移概率矩阵”。比如每一个时刻的状态有n中,前一时刻的每一种状态都有可能转移到当前时刻的任意一种状态,所以一共有n*n种情况,组织成一个矩阵形式如下:& t% Y8 W* h1 b2 H5 e
马3.png
6 M9 g2 t! |1 ^
  N( [4 \) j" a3 l: a  C' l( @
9 d5 x$ G3 ^! ]1.4 马尔可夫模型的应用, x! T. L9 g7 ]0 W- I8 S
. s5 o" e. K3 G5 G& J: ]/ e. z" I" h
      马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法、序列分类等各个自然语言处理等应用领域。经过长期发展,尤其是在语音识别中的成功应用,使它成为一种通用的统计工具。到目前为止,它一直被认为是实现快速精确的语音识别系统的最成功的方法之一。
, X1 f( ^+ h) M% q1 u; `& O
& X- a+ J8 r! Z% p, B& h- Y. g% m2 [; h二、马尔科夫模型的案例之一——天气预报
5 G) w! x6 d. D7 ~, ?& _下面是一个马尔科夫模型在天气预测方面的简单例子。如果第一天是雨天,第二天还是雨天的概率是0.8,是晴天的概率是0.2;如果第一天是晴天,第二天还是晴天的概率是0.6,是雨天的概率是0.4。问:如果第一天下雨了,第二天仍然是雨天的概率是多少?,第十天是晴天的概率是多少?;经过很长一段时间后雨天、晴天的概率分别是多少?
  f/ ^+ u% N/ V- l; _/ e
9 N: g$ E# F+ w/ `首先构建转移概率矩阵,由于这里每一天的状态就是晴天或者是下雨两种情况,所以矩阵是2x2的,如下:
5 w# G; V8 {8 x1 e/ K- L8 w
. E9 u5 i/ M3 U 马4.png * F/ D: ^% M! c& W
注意:每列和为1,分别对雨天、晴天,这样构建出来的就是转移概率矩阵了。如下:8 M  O5 U7 W( u) f

$ }* r7 _6 W$ i( j 马5.png 8 a4 f. L/ J. c7 l. o; X

1 ^2 c; ]# o/ f, K/ w假设初始状态第一天是雨天,我们记为! I0 ]$ E$ X4 Q

" d/ o/ ^! z* r$ u 马6.png * X7 q% L; a1 @  ?, ~6 v7 a
+ N/ p' E6 }7 M
这里【1,0】分别对于雨天,晴天。0 ?5 p% _9 A* ?+ [/ `6 z

7 c; O* n, l, L4 G初始条件:第一天是雨天,第二天仍然是雨天(记为P1)的概率为:1 N* g2 E* e( e: ~, L) |

* J# f' o  E( Q3 ZP1 = AxP03 Y( u% ~0 T7 O4 p. z2 N
1 A; _' O2 M8 `5 c0 g
得到P1 = 【0.8,0.2】,正好满足雨天~雨天概率为0.8,当然这根据所给条件就是这样。" G" {# R7 J7 F9 |
3 P2 @4 c3 N! Z
下面计算第十天(记为P9)是晴天概率:
. d1 |* j: _2 e- I9 P, `! ]( c; b. T$ q* b8 g& R, Z6 M0 V
马7.png 9 j. b$ _9 Y8 U

* {, m& o" t# B( ]# S2 C5 d得到,第十天为雨天概率为0.6668,为晴天的概率为0.3332。
; d. y; @: W( t5 K: Q! E
* s- C: I) [6 l4 R$ m  l; \- V7 N下面计算经过很长一段时间后雨天、晴天的概率,显然就是下面的递推公式了:
1 G8 o/ T& j' s$ g! C& V1 C
8 \% G5 q9 ^6 `( n0 _- y/ G 马8.png
6 D2 f  V5 l: r" j. [+ T+ A
' X% B( q( ]  l$ _! d2.2 递推公式的改进
7 x) Q' ~) t) O( p7 |+ P; h) V7 t
1 g3 Z: `0 o5 c6 q虽然上面构造了一个递推公式,但是直接计算矩阵A的n次方是很难计算的,我们将A进行特征分解(谱分解)一下,得到:- G1 U$ l; h9 O- d% H2 Y4 g4 O
' [% ]$ e" f/ Q! C
- T" Y% S9 u, b* r
马9.png & H* d( ~  ~# ]) b& b

  T% S! M, m& I/ p5 k! A$ s; x2 [3 y7 \: O$ c
现在递推公式变成了下面的样子:
& V9 N$ o: p5 F" ?# V$ \4 q, K
& y( \! |7 {5 K$ U  o/ _+ R
( \1 F, i, X7 u# G5 ?2 h6 s  P0 ]8 g 马10.png
# z" Y5 s& N* l
, x+ B6 s& z( n( w4 U5 P, V; N" L, Y. Y3 W
显然,当n趋于无穷即很长一段时间以后,Pn = 【0.67,0.33】。即雨天概率为0.67,晴天概率为0.33。并且,我们发现:初始状态如果是P0 =【0,1】,最后结果仍然是Pn = 【0.67,0.33】。这表明,马尔科夫过程与初始状态无关,跟转移矩阵有关。/ ~6 ~2 @  ?- r. h9 t

) M0 `: l8 C1 L/ `" D+ x- m) r: w3 G

% q) b- }6 p$ B" `% I4 b( u! G7 h( l5 ?三、再看一个例子——DAN的CPG岛2 q5 n$ K7 Y# @: Q4 e6 q2 s5 g
为什么还要看这个例子,因为在上面的天气预报我们是直接给出了概率转移矩阵,但是在实际应用中这个概率转移事先是不知道的,那该怎么办呢?需要自己去做统计才能得到。2 n3 I0 b# t0 P

4 b; |  H7 R7 [+ j# F# M4 E问题描述:基因组上CpG相对富集的区域被称作CpG岛,接下来我们要从给定的一定DNA序列,判断它是否来自CpG岛,这属于一个两分类问题。——这属于一个序列分类问题。7 O8 s' @+ C2 \7 J: G/ H

% N- J, z$ C! J0 J$ R  x/ }DNA序列每个位置上的核苷酸都可以被当作一个有四种可能取值的离散随机变量x={A,T,G,C} 。
( r. y- ]" m8 r在上述问题中我们要考虑连续位置上出现的CpG双核苷酸,可以用马尔科夫模型来表示这种相邻位置之间的依赖关系。如果第4 x7 t: }$ Q5 c. x* N7 _! r

! a6 M2 p9 i$ |% Q+ Gi 时刻上的取值依赖于且仅依赖于第i−1时刻的取值,即
8 L/ p# L. B7 x. o4 p& o5 e- v3 ~" h4 P2 ~+ p
马11.png   o! b0 Z6 Y0 z1 p, A, r

# W7 p7 ~7 i: q- b) {) `则我们把这个串称作一个一阶马尔科夫链(模型)。" c. @$ |9 D( f* i. W& x

7 _1 e/ y2 x' E$ z
  b  i4 O+ Y3 l1 k6 H对于DNA序列来说,每一位置的取值有四种,我们把它们称作四种状态,转移概率就是一个4∗4 的矩阵,称作转移概率矩阵或状态转移矩阵,如下图。
9 c) W5 D) j5 `/ ?7 x) [( \: S4 M0 S# K; D0 M# g7 m$ Z
马12.png
! D( U6 j" I9 Z4 j* S5 ~
8 y4 S8 W/ X! O# \0 h2 J; X如果知道两类(CpG岛与非CpG岛)的状态转移矩阵,那么对于一个序列样本,我们就可以用上述公式分别计算每一类模型下观察到该特定序列的可能性或似然度 马13.png ,用同样的类别似然比(或对数似然比)来进行类别判断。
: a8 |) u- E/ U2 L% y% S* l6 v% r. C3 h5 p0 `/ d
3.1 关键问题——状态转移矩阵的确定
8 |/ U1 N2 K+ Q. g" l+ |- K3 n! G! c  ]$ I. o! |9 h7 K1 h
那么怎样去确定马尔科夫状态转移矩阵(离散概率模型)呢?+ z( R- j$ \0 x/ p/ r3 v8 W
  o% N6 G, m6 G2 Z$ L
首先收集充分的、有代表性的一些CpG岛序列的片段和一些非CpG岛序列的片段,用它们构成两类训练样本。在每一类样本中,统计在所有位置上出现A、T、C、G的次数,再统计在每个A、T、C、G后面出现A、T、C、G次数,然后用下面两个公式来统计概率:1 y* G4 F5 _; E$ g) M
3 \8 e( X0 j7 E/ ~
马14.png : R( ~7 c8 A# e' N& I
8 K  b! C: K% U5 J5 `
马15.png
- x* c0 o- R! n. T/ u0 B
: |$ B5 e% L5 q7 L, |# R  I/ i* r/ K- ~' |# `$ R; e
, E0 S; U# l, ?( J. o% x2 y) m
加号表示的是正样本,减号表示的是负样本。得到如下的转移矩阵:/ L3 T8 n: }9 P8 t. r, _
马16.png
) m! f+ @. o7 \. X0 {7 {3 Y( y
6 g+ ]5 c4 x$ Q/ A" E: j
) `3 _* M% e0 Y' E0 ^7 h对于任意一段待判别的DNA序列,可以根据状态转移矩阵计算它属于CpG岛的似然比,再通过与一定的阈值比较进行判别。大于阈值的为正样本,否则为负样本,计算过程就与上面类似了,建立递推关系。/ {4 X+ |) I8 N% _' S

6 Y5 k' C7 a; E/ U8 O& X8 F+ x2 A5 X7 j  U9 }* G6 ?
3 j3 U9 [) Y9 O  D$ M
四、马尔科夫模型与时间序列的关系与区别
5 Z2 i. l/ e& Q5 d& Q* C0 B4 Y乍一看,马尔科夫模型与时间序列是有一定的关系,有时候甚至有人说马尔科夫过程的状态序列就是一个时间序列,的确,从时间的推移角度来说,这么说好像没很么问题,但是它们之间还是有很多区别的,个人总结以下几点:
  D! [) Q) @$ T0 w! }- A% I' F+ M+ Q) N6 R
(1)马尔科夫模型是概率模型。每一个时间点的观测值体现为状态值,所谓状态值就是某一个类别的概率,这跟时间序列显然不一样;& ^4 u+ i5 P% M3 i2 P

2 R  S) [, R5 n(2)马尔科夫模型当前状态与之前状态的关系是通过转移概率、转移概率矩阵来决定的,这也是和时间序列不一样的地方。
, n- l# a: G/ n: c————————————————
0 x/ z6 Q. G- D  h版权声明:本文为CSDN博主「LoveMIss-Y」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
7 W4 e* i4 P* ]1 j原文链接:https://blog.csdn.net/qq_27825451/article/details/1001177155 ]/ }7 T0 `- [* m( @7 @/ z8 p

2 J  F$ R8 Z2 \" v1 P" \( G( k( ~. r$ D! z4 m* F





欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5