基于聚类分析的葡萄酒质量的评价 作者:崔逸群 陆瑶 摘 要本文基于假设检验、聚类分析以及主成分分析、回归分析等多种判别方法,分别研究了红、白葡萄酒的理化指标以及对应的酿酒葡萄的理化指标与葡萄酒的关系。具体地,本文解决了以下几个个问题:6 \9 p( j W, y( j* [
问题一研究了两组评酒员的评分的差异程度和可信度。在利用SPSS软件中k-s判别法测得数据满足正态分布前提下,运用配对样本T-检验方法对两组评酒员的评价结果进行了显著性检验,结果表明两组的评价结果差异是显著的。另外,通过对两组评酒员评价结果进行方差比较,方差较小者较为可信,结果表明红、白葡萄酒均为第二组的评分较为可信。. L K: g1 A" p( d, S
问题二,研究了基于酿酒葡萄的理化指标以及葡萄酒的质量对酿酒葡萄的分类问题。利用聚类分析方法,使用SPSS软件对酿酒葡萄的理化指标采用组间平均连锁距离聚类法和平方欧式距离度量方法进行系统聚类分析。根据分类的结果以及问题一得到的品酒员对葡萄酒的质量评分高低最终将酿酒葡萄分为五级。其具体结果见表六和表七。/ J5 \+ J8 N2 ?9 ^0 _, r: k4 e
问题三,基于酿酒葡萄与葡萄酒的理化指标数据,首先运用主成分分析法对葡萄和葡萄酒的理化指标进行降维,选取酿酒葡萄和葡萄酒理化指标中少数较为重要的几个指标。再根据题意,分别以葡萄酒和葡萄的主成分作为因变量和自变量建立指标之间的函数关系来表征指标之间的联系。从而求出葡萄酒理化指标的每一个主成分对酿酒葡萄所有主成分之间的回归关系。建立多个回归关系式来分析指标之间的联系。本问可得出六个多元线性方程式,由由方程式可知,对于葡萄酒其主成分的理化指标与酿酒葡萄的一些理化指标具有明显的线性相关关系。 关键词:spss 显著性检验 方差 聚类分析 主成分分析 多元线性回归 1. 问题重述葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,可辅助感官检查。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。建立数学模型求解下列问题: 1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。 4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量? - P* Q; t" @5 g0 A
2. 问题分析酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量,本题要求通过酿酒葡萄的理性指标和酿酒师给予的评分,综合考虑酿酒葡萄的理性指标与葡萄酒的质量的关系。 问题一: 要求对两组评酒员评价结果有无差异性进行分析,并分析得出哪一组的品酒员的结果更具有可信。 本问题首先要求检验品酒员评价结果有无显著性差异,在检验数据满足正态分布前提下对两组数据进行配对样本T检验[1],得到显著性差异结果。对于一组品酒员评价结果是否可信,可通过对其评价结果进行方差比较,方差结果较大组,则可认为组内成员间分歧较大,结果不可信,否则则认为结果可信。 问题二: 要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级,酿酒葡萄的理化指标可根据附表得到,使用SPSS对理化指标进行聚类分析,找到具有相似成分的酿酒葡糖样品,因为根据常识一般具有相似优秀成分的葡萄可以酿出优秀的葡萄酒。 之后便可根据问题一中得到的评酒员得出的评价成绩,结合聚类分析的结果,得到酿酒葡萄的级别。 问题三: 由于酿酒葡萄和葡萄酒的理化指标都很多,葡萄酒和葡萄的两组指标数量大,难以直接进行统计分析中的回归和相关等方法建立联系。因此,可首先考虑对指标的降维。在对降维方法的选择上,可采用主成分分析。主成分分析即将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。本题利用主成分分析法,选取酿酒葡萄和葡萄酒理化指标中少数较为重要的几个指标。再根据题意,建立指标之间的函数关系来表征指标之间的联系。
6 \5 S+ ?3 n% ~' w由于本问中的指标变量之间的关系是多变量对多变量,则在建立联系时,可以葡萄酒理化指标为因变量,在以求得主成分的结果的基础之上,求葡萄酒理化指标的每一个主成分对葡萄所有主成分之间的回归关系。建立多个回归关系式来分析指标之间的联系。 3. 符号说明 4. 模型假设(1) 假设数据来源真实有效 (2) 假设品酒员打分是公平可信的; (3) 假设酿酒工艺条件相同,无其他人为因素影响 (4) 假设酿酒工艺和贮存条件等对葡萄酒质量及理化指标无影响; 5. 建模与求解5.1. 问题一( D e" x3 e7 E1 u* V3 S, ?$ Z
5.1.1数据预处理在对附表一进行数据处理中,发现数据存在缺失和明显错误现象,针对这种现象,因为数据波动较小,故可以采用求平均值的方法来替代错误及缺失数据。现列表如下: 表一:数据错误修正前 表二:数据错误修正后: 表三:数据缺失修正前: 表四:数据缺失修正后: 5.1.2显著性差异模型建立与求解: 5.1.2.1模型建立前提 两组数据需要来自正态总体[1]. 用spss对各组评分员评分结果进行正太分布检验,检验结果见附录五,由于各组双侧渐进显著性取值都大于0.05,即可认为数据分布是服从正态分布的。 5.1.2.2配对样本T检验基本步骤[2] ⑴提出原假设 两配对样本T检验的原假设 为:两总体均值无显著差异,表述为 : 。 , 分别为第一个和第二个总体的均值。 ⑵选择统计量。 两配对样本T检验采用T统计量。 ⑶计算检验统计量观测值和概率P-值 ⑷给定显著水平 ,并作出决策。 给定显著水平 ,与检验统计量的概率P-值作比较。如果概率P-值小于显著水平 ,则应拒绝原假设,认为差值样本的总体均值与0有显著不同,两总体的均值有显著差异;反之,如果概率P-值大于显著水平 ,则不应拒绝原假设,认为差值样本的总体均值与0无显著不同,两总体的均值不存在显著差异。 5.1.2.3对数据进行配对样本T检验 用spss对两组评分员结果进行配对样本T检验结果如下: 图一:白葡萄酒评分结果T检验 图二:红葡萄酒评分结果T检验 由图可知,两图结果Sig(双侧)小于显著性水平0.05,拒绝原假设,认为两组评酒员评价结果有显著性差异。 5.1.3可信度评价模型建立与求解 对于可信度的评价分析,可以利用方差大小来进行评估,方差结果较大组,则可认为组内成员间分歧较大,结果不可信,否则则认为结果可信。 首先求出各组成员对同一酒样品评分的方差,然后再用Excel做出两组评分员评分结果的方差比较图如下: 图三:两组红葡萄酒评分方差图 图四:两组白葡萄酒评分方差图 结果分析:由两幅图可以看出对于红葡萄酒和白葡萄酒,第二组评分员给出的评分结果波动较小,可以认为第二组评分员给出的结果更可靠。 5.2. 问题二的建模与求解5.2.1数据预处理本问题由于酿酒葡萄理化指标较多,对于各类指标,均只取用第一类指标而忽略第二类指标,对于测量多次的数据采用求取均值的办法,以均值来代替指标。 5.2.2模型建立:聚类分析聚类是将某个对象集划分为若干组的过程,使得同一个组内的数据对象具有较高的相似度,而不同组中的对象是不相似的。[3]本问题我们采用系统聚类分析处理。 5.2.2.1 系统聚类分析 根据题意,我们对酿酒葡萄的理化指标和葡萄酒的质量进行系统聚类分析来对酿酒葡萄进行分级。 5.2.2.2系统聚类分析法 a. 基本思想: 首先将 个模式视作各自成为一类,然后计算类与类之间的距离,选择距离最小的一对合并成一个新类,计算在新产生的类别分划下各类之间的距离,再将距离最近的两类合并,直至所有模式聚成两类为止。 b. 算法步骤 ⑴ 初始分类。令 ,每个模式自成一类,即 。 ⑵ 计算各类间的距离 ,生成一个对称的距离矩阵 , 为类的个数。 ⑶ 找出前一步求得的矩阵 中的最小元素,设它是 和 间的距离,将 和 两类合并成一类,于是产生新的聚类 ,令 。 ⑷ 检查类的个数。如果类数 大于2,令 ,转至⑵;否则,停止。 如果某一循环中具有最小类间距离不止一个类对,则对应这些最小距离的类可以同时合并。上述算法步骤给出了从 类至 类的完整聚类过程。 5.2.2.3 基于酿酒葡萄的理化指标和葡萄酒质量的进行系统聚类分析 根据上述的四个方法步骤,我们先运用Excel对题目所给的两种葡萄的理化指标的数据进行分析和整理,再运用SPSS软件对酿酒葡萄的理化指标进行系统聚类分析,得出其结果如下图所示: 图五:红葡萄酒酿酒葡萄理化指标聚类分析 图六:白葡萄酒酿酒葡萄理化指标聚类分析 考虑到我们国家将葡萄酒品质分为五种类别[4],如下表: 表五:葡萄酒感官分级评价描述 | | | 具有该产品应有的色泽,自然、悦目、澄清(透明)、有光泽;具有纯正、浓郁、优雅和谐的果香(酒香),诸香协调,口感细腻、舒顺、酒体丰满、完整、回味绵长、具该产品应有的怡人的风格。 | | 具有该产品的色泽;澄清透明,无明显悬浮物,具有纯正和谐的果香(酒香),口感纯正,较舒顺,完整,优雅,回味较长,具良好的风格。 | | 与该产品应有的色泽略有不同,缺少自然感,允许有少量沉淀,具有该产品应有的气味,无异味,口感尚平衡,欠协调、完整,无明显缺陷。 | | 与该产品应有的色泽明显不符,严重失光或浑浊,有明显异香、异味,酒体寡淡、不协调,或有其他明显的缺陷(除色泽外,只要有其中一条,则判为不合格品)。 | | |
于是我们可以结合葡萄酒质量对两类酿酒葡萄进行分类,首先根据聚类结果得到不同类别的酿酒葡萄,然后根据对应葡萄酒品尝得分均值划分等级如下表: 表六:红葡萄酒酿酒葡萄等级划分 | | | | | | | | | | | | | 1 4 8 13 14 16 19 21 22 27 | | | | |
表六:红葡萄酒酿酒葡萄等级划分 5.3. 问题三的建模与求解5.3.1两组指标的主成分分析酿酒葡萄的理化指标与葡萄酒质量的理化指标数目过多,且部分指标对各自的品质影响小,且数目过多难以建立指标之间的联系。 因此,首先可对各指标进行降维,减小指标个数。本问中采取主成分分析的方法对指标进行降维。主成分分析可将原来众多的具有一定相关性的变量重新组合成一组新的相互无关的综合变量来代替原来的变量。其一般步骤[5]: (1)由相关系数矩阵得到特征值及各主成分的方差贡献率等,根据累计贡献率确定主成分保留个数 (2)利用施密特正交方法,对每一个求其对应基本方程组的解,对数据进行转换得到主成分 (3)将观测值代入主成分表达式中计算各个主成分的值 (4)由因子载荷解释主成分。 用一级指标代替二级指标,通过spss软件,以特征值贡献率之和大于85%筛选主成分进行分析。 具体计算方法由下图[5]给出: 图七:主成分分析法计算 利用spss计算得到(计算结果见附录六): (1)红葡萄酒主成分为2个 (2)红葡萄酒酿酒葡萄主成分为8个 (3)白葡萄酒主成分为3个 (4)白葡萄酒酿酒葡萄主成分为10个 5.3.2模型建立5.3.2.1主成分间的回归分析 多元回归分析是研究多个变量之间关系的回归分析方法,确定变量之间数量的可能形式,并用数学模型表示如下: Y=a+Bi*Xi 其中a为常数项,Bi为回归系数,i=1,2,3…… 由于红葡萄酒的理化指标主成分为两个,红葡萄酒酿酒葡萄的理化指标有八个,使用spss对着两组数据进行多元线性回归分析如下,于是便可以得到两组八元一次方程组。 图八:红葡萄酒线性回归结果——方程一 图九:红葡萄酒线性回归结果——方程二 由以上两图可以得到红葡萄酒与其酿酒葡萄的线性回归方程如下:! U! y t) A& i! \3 e/ q5 L
Y1=-1.541+0.276*X1-0.019*X2-0.021*X3+0.026*X4+0.429*X5+0.498*X6-1.412*X7+1.675*X8, C( f& l: b( G, y' S
Y2=-0.368+0.019*X1-0.001*X2+0*X3+0.003*X4+0.009*X5+0.009X6-0.07*X7+0.05*X87 a) V/ }$ @7 w5 h" u
; g7 `5 v! q+ j! O 其中Y1为总酚,Y 2为DPPH半抑制体积;& ~7 `5 W- S7 s7 S2 m0 g
X1为白藜芦醇,X2为总糖,X3为还原糖,X4为可溶性固形物! K1 u# R% v7 i; Y
X5为干物质含量,X6为果梗比,X7为a*(+红;-绿),X8为b*(+黄;-蓝)
* I' T7 }' a% D: _- A- y, s7 o$ a1 n3 ]+ G% j" i2 I
3 b6 \0 H* m0 O5 `# F
同理针对白葡萄酒可得到如下回归结果: 图十:白葡萄酒线性回归结果——方程一 图十一:白葡萄酒线性回归结果——方程二 图十二:白葡萄酒线性回归结果——方程三 由以上三图可以得到白葡萄酒与其酿酒葡萄的线性回归方程如下:* |/ `8 ~/ c$ r- ?1 m9 u/ t
y1=1.197+0*x1+0.002*x2-0.112*x3+0.134*x4-0.09*x5+0.14*x6+0.166*x7+0.01*x8-0.004*x9-0.028*x10: m: X, @5 }3 Y0 ^
y2=-0.553+0*x1+0.001*x2-0.093*x3+0.038*x4+0.043*x5+0.031*x6+0.078*x7-0.005*x8-0.001*x9+0.021*x10) J5 M7 R' x, v! R
y3=-5.319+0*x1+0.008*x2+0.135*x3+0.002*x4+0.171*x5-0.088*x6+0.108*x7+0.042*x8=0,。009*x9-0.067*x10% k) E" F" S, `9 w, ]/ v
( }2 C [2 A. [9 d0 ]: H0 {% B
% C# ~8 S, h) x \4 a% ay1为单宁,y2为总酚,y3为酒总黄酮;
% n+ v: k1 V ^5 C% c$ e, |* cx1为氨基酸总量,x2为蛋白质,x3为苹果酸,x4为柠檬酸,x5为总酚,x6为单宁,x7为葡萄总黄酮,x8为黄酮醇,x9为还原糖,x10为干物质含量。 5.3.3相关性分析 由以上方程可知,对于葡萄酒其主成分的理化指标与酿酒葡萄的理化指标具有线性相关关系,即酿酒葡萄与葡萄酒理化指标之间具有紧密的联系。 5.4. 问题四的建模与求解
& E& _+ }: ?3 V+ |: s3 ]9 C1 o未完成
- i5 H i- _$ w, D& P+ ?6. 模型的综合评价模型的优点 (1) 模型对缺失、错误数据进行了处理,排除了偶然误差对模型结果的影响。 (2) 对混乱数据进行了排序使数据处理过程更简明。 (3) 对多个数据进行了聚类分析,使分类更加合理化。 (4) 对多成分进行主成分分析,得到清晰明了的结果。 模型的缺点 (1) 对酿酒葡萄、葡萄酒指标处理时仅考虑一级指标,以及后面采用主成分分析丢失大量数据,使结果可信度降低。 (2) 在回归分析中, 虽然采用了多元线性回归方程进行分析,但是忽略了自变量之间的交互作用对因产生影响,从而使回归结果不够准确。 (3) 没有对回归方程进行显著性检验。
% H _* b) ?1 B5 i- w) ^& a! Z- f |