* R! c2 ~8 @7 q, f3 v' i- r判别分析(distinguish analysis)是根据所研究的个体的观测指标来推断该个体所属 类型的一种统计方法,在自然科学和社会科学的研究中经常会碰到这种统计问题。例如4 C( ^ R& M" ~ [
( ?2 J9 l* O+ ?" _
在地质找矿中我们要根据某异常点的地质结构、化探和物探的各项指标来判断该异常点 属于哪一种矿化类型;2 q; \3 f) r5 V5 X8 v
; V- N! V( `/ `0 s
医生要根据某人的各项化验指标的结果来判断该人属于什么病 症; 3 L# h8 t9 s' A" }* r7 [: t) r% n& O/ s$ H+ l. }3 y
调查了某地区的土地生产率、劳动生产率、人均收入、费用水平、农村工业比重等 指标,来确定该地区属于哪一种经济类型地区等等。# J! o; Y) C' c* X
1 I' I) o4 S. a. {5 p6 o0 a
该方法起源于 1921 年 Pearson 的 种族相似系数法,1936 年 Fisher 提出线性判别函数,并形成把一个样本归类到两个总 体之一的判别法。& l& c7 |0 W- x8 y
5 R* u: U2 E3 |& z判别问题用统计的语言来表达,就是已有q个总体 ,它们的分布函数分别为 ,每个 都是 p 维函数。对于给定的样本 X ,要判断它来自哪一个总体?当然,应该要求判别准则在某种意义下是优的,例如错判的概率小或错判的损失小等。我们仅介绍基本的几种判别方法,即距离判别,Bayes 判别和 Fisher 判别。1 c! a: E( ^* a6 t8 O' U
. b. L ?8 Y8 K3 b距离判别 + f4 Y; l$ ?, H+ |+ H3 C2 G; |& D% m4 e
距离判别是简单、直观的一种判别方法,该方法适用于连续性随机变量的判别类, 对变量的概率分布没有什么限制。+ O7 ?. m# ^5 [5 n0 s+ t3 Z0 s
% ^- v8 O; ~$ u5 X& _8 a# H
1.Mahalanobis 距离的概念 ( ]; ]) y8 s7 ~& I3 U, C) T1 ?通常我们定义的距离是 Euclid 距离(简称欧氏距离)。但在统计分析与计算中, Euclid 距离就不适用了,看一下下面的例子(见图 6)。5 e6 Z* e; y+ G( G