QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1108|回复: 0
打印 上一主题 下一主题

“五度”数据分析

[复制链接]
字体大小: 正常 放大

937

主题

117

听众

3万

积分

升级  0%

  • TA的每日心情

    2020-10-25 11:55
  • 签到天数: 264 天

    [LV.8]以坛为家I

    自我介绍
    内蒙古大学计算机学院

    社区QQ达人 金点子奖 助人为乐奖 风雨历程奖

    群组2013年数学建模国赛备

    跳转到指定楼层
    1#
    发表于 2014-4-17 02:06 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    工欲善其事,必先利其器。数据分析要成为企业利器需要满足“五度”:深度、效度、信度、难度、通度。

    第一度:深度

    深度是指数据分析对企业的支持程度,是数据分析成为利器的首要条件。当企业面临决策难题时,数据分析若要有深度,则要全面回答三个问题:

    1、企业的现状和问题是什么?

    2、问题为什么会产生?

    3、企业未来怎么办?

    这3个问题若未答全,则分析的深度就会有所缺失。

    举个例子。下表是某分析师为A卖场所做的顾客满意度分析。


    显然,该表的分析深度是不够的。至少没有回答以下问题:

    1、在7个评价指标中,哪个指标更重要,需要优先改进?(是什么)

    2、A卖场的满意度水平和竞争对手相比,处于什么地位?(是什么)

    3、为什么顾客对A卖场“宣传”方面的满意度水平最低?(为什么)

    4、A卖场该如何针对不同的顾客提高满意度水平?(怎么办)

    为此,需要针对这些问题进行分析方法改进。改进如下。

    问题1:在7个评价指标中,哪个指标更重要,需要优先改进?

    方法改进:增加矩阵分析(见下图)


    分析思路:增加重要性维度,对7个指标的重要性和满意度同时测评。

    那些重要性高,但满意度低的指标就是优先需要改进的方向

    分析结论:“宣传”和“店员”是A卖场需要重点改进的两个方面

    问题2: A卖场的满意度水平和竞争对手相比,处于什么地位?

    方法改进:增加矩阵分析(见下图)


    分析思路:增加竞争对手B卖场,使A卖场清楚在与B卖场的竞争中自身所处的位置、优劣势和改进的方向

    分析结论:A卖场的总体表现优于B卖场。与B卖场相比,A卖场的优势为环境/位置/店员/服务/价格,劣势为品类/宣传

    问题3:为什么顾客对A卖场“宣传”方面的满意度水平最低?

    方法改进:增加对比分析(见下图)


    分析思路:在对A卖场的满意度评价中,“宣传”的满意度得分最低。问题出在哪里?是“宣传频率”,还是“宣传覆盖面”?是“宣传类型”还是“广告代言人”?要找到问题的症结,需要细化“宣传”指标,并判断细化指标的表现,从而做出问题诊断。

    分析结论:“宣传覆盖面”是最重要的,但满意度却最低,因此为最先需要改进的指标,其次是“广告美誉度”和“宣传频率”。

    问题4:A卖场该如何针对不同的顾客提高满意度水平?

    方法改进:增加方差分析和对应分析(见下图)



    分析思路:如何提升满意度,这是顾客满意度分析的终极目标。而要提升顾客的满意度,就需要知道不同的顾客在重点考虑因素方面是否存在差异,差异具体有哪些。然后针对这些差异开展精准营销。

    分析结论:通过方差分析,可以看出F值的相伴概率为0.002<0.05,通过显著性检验,说明不同城市在考虑因素方面存在着显著差异。顾客所在的城市可以分为三类,北方城市、中部城市和南方城市。北方城市更关注店面环境、促销价格等因素;南方城市更关注卖场的口碑、实力、知名度等因素;中部城市更关注售后服务、店面面积等因素

    通过对以上4个问题的改进,A商场的顾客满意度分析深度有所增加。

    第二度:效度

    效度是指数据分析的效率。速度越快、成本越低、则效度越高。效度是数据分析成为利器的第二个条件。

    例如,社交网络分析能成为趋势,是因为与传统分析方法相比,社交网络分析更效度。


    以医学研究为例。

    在传染病预测方面,社交网络分析表现出了更强的速度。

    传统的分析方法是国家疾病控制预防中心从医生、实验室那里收集数据,来分析疾病的流行性和发病率。当不同的病人在不同地方被诊断有病,所有数据,在经过一定的延迟之后,都送到一个中心数据库。一两个星期之后,你才会知道你身边的传染病在什么地方也会发生。这样的分析显然是滞后和无效的。无法起到传染病的警示和预测效果。但是,通过社交网络分析却可起到预警作用。

    下图中横坐标表示时间,纵坐标表示传染病感染人数的比例。由于在社交网络中,中心群体(即位于社交网络中心并且连接数目多的人物)比随机人群更容易受到病毒感染,在同一时间,中心群体感染率更大。因此,黄线表示中心群体的感染率,红线表示随机人群的感染率。


    显然,中心群体与随机人群之间存在着一个时间差,也就是如果我们对中心群体进行追踪研究,会及早发现问题,起到预测和警示的作用。2009年哈佛大学利用社交网络对H1N1进行预测,得到了提前16天的预先警示,大大提高了医院的反应速度。


    在群体免疫方面,社交网络分析则表现出了更低的成本。

    如果我们有个1000人的群体,想使这个群体对某种病原体免疫。我们是否需要给每个人都打免疫预防针呢?不需要。

    由于在社交网络中,中心群体比随机人群更容易影响他人,因此,只要使中心群体免疫,就解决了源头问题。如何找到中心群体呢?可以随机从人群中选个人,向他询问:在你的朋友中,有比你有更多朋友的朋友吗?然后找到这个朋友,再次询问这样的问题,以此循环,就会不断向社交网络中心逼近。科学家的实验表明,从1000人的群体中取30%的随机样本,让他们推举他们的朋友,然后对这些朋友进行免疫,就能达到使90%以上的人免疫的效果。但是效率更高了,花费更少了。

    第三度:信度

    信度是指分析结果的可靠程度。信度是判断分析方法好坏的第三个标准。要加强分析的信度,需要做到以下几点:



    1、对比要可比

    在我们身边,充斥着大量的不具有可比性的对比分析。而这个问题严重影响了分析结果的可信度。

    @数据化管理 曾经举过这样一个例子。

    在美国和西班牙交战期间,美国海军的死亡率是千分之九,而同时期纽约居民的死亡率是千分之十六。后来海军征兵人员就用这些数据来证明参军更安全。你认为这个结论正确吗?

    当然不正确,这两个数字的对比是不具有可比性的,当兵的都是身强力壮的年轻人,而居民的死亡率是包括老弱病残的数据,这些人相对来说,死亡率是高的(需要说明的是16‰估计是不含自然死亡)。所以正常应该是用同年龄段的海军数据和纽约居民来对比。


    2、差异要显著

    在做精细化营销时,往往需要借助数据来理解不同用户的偏好差异。那么,数据相差多大才显示不同用户的偏好存在差异呢?

    例如,在左下图中,不同收入的用户对A卖场品类的态度有差异吗?别急,需要先做显著性检验。因为

    满意度得分上的差异来自两个方面:组间差异和组内差异。

    组间差异(控制变量)是由于收入水平的不同,三组用户间的满意度差异

    组内差异(随机变量)是由于随机因素,同样收入水平下的用户的满意度差异

    只有当满意度得分上的差异主要来自于收入水平(即组间差异),而不是其他(如随机抽样),才可以说:不同收入的用户具有不同的偏好。

    基于以上思考,我们做方差分析。从方差分析的结果看(见右下图)

    首先:方差齐性检验中的相伴概率值0.435>显著性水平0.05,可认为各水平下总体方差相等,通过了检验,所以可以使用方差分析。

    其次,方差分析的结果显示组内平方和(即组内差异为90.396)远远大于组间平方和(即组间差异为8.379),F值的相伴概率值>0.05,未通过检验。也就是说对A卖场品类态度上的差异主要来自于同样收入水平下的用户,不同收入者对A卖场的品类的态度不存在显著差异。


    如何理解这个检验结果呢?从满意度得分来看,似乎不同收入者在品类方面的差异蛮大咧(见左下图)。我们看不同收入者的满意度分布就比较好理解了(见右下图)。

    从右下图可以看到三类收入者内部波动很强烈,组内的差异水平甚至高出组间差异。这说明收入并不是区隔用户品类满意度的显著因素,即不同收入者的满意度水平不存在显著差异。



    3、描述要全面

    为什么当统计局把在岗职工的平均工资公布后,很多网友嗤之以鼻,讥之为“真实的谎言”者有之,认为“工资不涨反降”者有之,质疑“是不是又在放卫星”者亦有之呢?

    因为平均工资的描述不能全面刻画工资的分布特点。它只能反映工资的集中趋势(一般水平),却没有考虑工资水平之间的离散趋势(波动程度)。



    第四度:难度

    是否用复杂的方法,取决于的问题的难度。问题难度升级,则方法的复杂程度也要升级。

    以市场细分为例。


    若单一维度细分效果不佳,则需要增加分类维度。

    例如,我之前做过一个彩电项目,用收入作维度进行细分市场。发现高收入者和低收入者买高档彩电的比例相差无几。仔细想想,高收入并不是买高档彩电的充要条件:高收入不一定就买高档彩电;低收入也不一定买低档彩电。高强度的工作可能会是使一个月薪过万的白领不买电视,因为根本没时间看;严重的攀比心理可能会使入不敷出的人家借钱买最贵的彩电。

    因此,买什么价位的彩电,不仅和收入有关,还可能会和消费者的价值观、生活形态、对彩电的需求程度、年龄、职业等多种因素有关。到底和哪些因素有关,需要不断假设、探索,验证、比较、推翻,然后再重新开始,直到找到最合适的细分方案。

    1、分类维度多——聚类分析+因子分析

    既然要增加分类维度,此时拖透视表不管用了,就要考虑更复杂些的分类方法了,比如聚类分析。下图用的是系统聚类分析法,用人均GDP、人口数、价格增长指数等5个维度来对省份进行分析。


    用于分类的维度较少,并且相互独立是最好的。但大多数的情况是,我们想出了一大堆维度,其中很多维度之间由存在一定的相关关系,也就是存在多重共线性的问题。此时,直接做聚类分析显然不合适,需要在聚类之前作因子分析。

    例如,对网民进行细分,以17个生活形态语句做细分的维度,会发现维度又多又共线,比如“喜欢热闹和聚会”、“经常户外度假”、“下班后尽快回家”、“即使有钱也要工作”反映了生活的态度和状态。

    通过因子分析,我们最终将这17个生活形态的语句综合为“享受奢侈”、“外向运动”、“居家节约”、“独立自信”四个因子(见下图)。



    2、选择标准多——层次分析法

    市场细分的目的是为了从各类细分市场中选择目标市场。如何选择呢?如果标准单一,直接用这个标准比较各个细分市场就好了。但如果标准较多并具有一定的结构性,则要考虑更复杂些的方法——层次分析法。

    层次分析法的第一步是建立层次结构模型。只要你想清楚要对哪些细分市场进行选择,选择的标准都有哪些,之间存在什么关系,层次结构模型就建立起来了(见下图)。



    层次分析法的后四步分别是构造判断矩阵、单层排序、一致性检验和选择决策。具体的操作步骤大家可以看我的博文《谁是你的白马王子?》http://blog.sina.com.cn/s/blog_a032adb901019w7n.html

    第五度:通度

    数据分析前期要详细了解企业需求;后期要向企业呈现研究成果,虽然信息流方向不同,但同样需要沟通。沟通的顺畅度就是通度,通度的高低,直接影响数据价值的发挥水平。那么,如何提高数据分析的通度?

    我总结有“三用三不用”原则:


    1、能用图表就不用数据

    假设我要描述大学生对手机功能的使用情况。若用数据,平淡如水,让人产生恹恹欲睡之感;若用图表,栩栩如生,让人迅速抓住关键信息(见下图)。



    2、能用图片就不用文字

    与文字相比,图片色调化,更能让人们产生视觉冲击;图片故事化,更能使人们产生移情和共鸣。

    例如,用一张图片,来展示人与狗亲密接触的瞬间,要比千言万语更能打动读者。因为图片中的温馨与快乐的情感有移情效应,会强烈感染读者。


    3、能用动态呈现就不用静态展示

    在表达事物随着时间的动态变化时,动态呈现能还原真实,无疑比静态展示更能让人们产生身临其境之感。

    将动态展现做到极致的Hans Rosling,下面的链接是他关于《从新视角看贫困问题》的视频,其中气泡图的动态使他的讲演彰显魅力。

    http://v.youku.com/v_show/id_XMTU4MjYzMzUy.html


    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-14 00:00 , Processed in 0.452167 second(s), 52 queries .

    回顶部