QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1675|回复: 0
打印 上一主题 下一主题

【美赛必备】大数据时代:五个真实的数据挖掘故事之三

[复制链接]
字体大小: 正常 放大

2983

主题

142

听众

9750

积分

升级  95%

  • TA的每日心情
    开心
    2017-1-9 14:34
  • 签到天数: 272 天

    [LV.8]以坛为家I

    自我介绍
    吃吃吃

    社区QQ达人

    群组乐考无忧

    群组2014国赛优秀论文解析

    群组2016美赛冲刺培训

    群组2016国赛优秀论文解析

    群组2016国赛备战群组

    跳转到指定楼层
    1#
    发表于 2015-12-9 16:18 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    案例3:数据权之争



    拥有了数据就等于夺取了行业制高点,飞友网络科技公司CEO郑洪峰深知个中道理。


    最近几年,随着移动互联网的兴起,一类关于航班动态的应用程序开始出现。通过一套算法,数据工程师们将机场航班实时动态转换成直观的信息,再传递给用户,让后者能够及时了解到航班的起飞、到达、延误、取消、返航、备降等状态,从而帮助用户更高效地安排行程计划。
    目前这个市场上主要有三款应用产品,分别是航班管家、飞常准和航旅纵横,飞常准正是飞友科技推出的一款应用。三款应用中,航班管家和飞常准都是民营企业,上线时间较早,用户数较多;航旅纵横虽然上线最晚,却是由央企中国民航信息集团(中航信)开发,大有后来居上的趋势。


    随着这个细分市场呈现三足鼎立的局面,一个问题浮出水面。郑洪峰向《中国企业家》直言,数据是这个行业最重要的资源。但是目前中航信垄断了大部分行业信息,使得飞常准必须通过购买和交换才能获得自己所需要的数据。


    徘徊的大数据门前:五个真实的数据挖掘故事
    “我们的数据成本是非常高的。”郑洪峰告诉本刊,“气象、航班信息、空域流量等信息有些是公开发布的,有些则需要公司向空管局、机场和航空公司购买或交换。”


    对于郑来说,获取数据的过程就是一部血汗创业史。据其回忆,早年的各大机场、航空公司之间的数据是割裂的,为了获得准确的航班起降信息,郑洪峰和他的团队就去为这些政府机构、大公司提供技术支持,以此来交换所需要的数据。“我们必须放下身段,他们需要什么我们就做什么。”郑说道。因为飞常准是家小公司,决策链条短,效率高,通过多年的积累,郑洪峰打通了部分数据通道。


    郑洪峰在民航系统工作近12年,其人脉和常识的积累成为飞常准的重要优势。1999年,他创建了民航资源网。现在,这家网站是中国最大的民航门户网站。2005年,他又创办了飞友,主要为飞行旅客提供机票搜索引擎等服务。从2008年开始,郑洪峰团队通过飞常准为用户提供航班动态服务。早期,飞常准的用户只是民航内部工作人员,很多机票代理商主动帮其推广,机场方面也常常用飞常准的应用来安抚因飞机延误而愤怒不已的乘客,而业内资深人士也常提供很多有价值的反馈信息。郑洪峰依靠民航内部的资源维持着自己的数据来源。但郑知道,这并不能长久。


    郑洪峰的故事并不是孤例。中国一家大型电子商务公司的数据挖掘专家接受本刊专访时提到,现在,越来越多的电子商务公司需要预测非一线城市的物流状况。在这一过程中需要考虑当地交通拥堵程度和天气情况,如果当地政府可以提供这方面的相关数据,可以大大提高运作的效率。以交通数据为例,这位数据挖掘专家使用的是百度地图和高德地图,后来,他发现不能再用了:一方面,与这样的公司合作存在商业机密问题;另一方面,由于交通数据可能来自于这些公司的统计,失真度也是这位数据挖掘专家担心的。“我们非常希望政府能开放一些原始数据。”他继续说道,“我们也希望和领先者能平等地分享数据权,而不是数据成本增加了二三倍。”


    郑洪峰和这位数据专家都担心数据垄断,希望政府公平公开地开放数据,这样的做法并非没有借鉴。美国有一个叫做flyontime.us的网站,用户可以从这个网站上获得航班信息和天气情况,其功能与国内的航班动态应用类似。但是值得一提的是,这个网站的数据来源是一个公开的美国政府网站data.gov。目前在上面大约有超过40万各种原始数据文件,涵盖了农业、气象、金融、就业、交通、能源等近五十个分类。此外,data.gov还有一个地理信息的子站点,专门提供地理信息相关的数据。美国官方表示,这个网站的目的是“方便公众更便捷地获得联邦政府数据,并通过鼓励创新来突破政府的围墙而创造性地使用这些数据。”


    2006年经济学家唐·泰普斯科特(Don Tapscott)在《维基经济学》中指出,人类已经进入了共享时代:“失败者创建的是网页,而胜利者创建的是生机勃勃的社区;失败者创建的是有墙的花园,而胜利者创建的则是一个公共的场所;失败者精心守护他们的数据和软件界面,而胜利者则将资源与每个人共享。”这一理念后来被认为是网络2.0时代的核心理念。以用户为中心,注重用户交互,让用户参与共同建设的网络2.0同样适用于政府,最近几年各国政府的一系列举措标志着政府2.0时代的到来。


    那么在大数据时代,中国政府做好准备了吗?


    深藏的事实


    飞常准的竞争对手也遇到了相同的困境。为了拿到第一手数据,航班管家非常卖力。它与各大机场合作,间接获得自己所需要的航班起降信息。2012年6月,航班管家与上海虹桥机场达成协议,航班管家可以直接从虹桥机场获得信息,包括航班的延误、取消以及登机口变更等一手信息,且提供的信息均与虹桥机场同步。可以预见,机场是其重要的数据来源。


    面对竞争对手的步步紧逼,郑洪峰认为,正常的商业竞争并不是飞常准所焦虑的事。“开放与竞争对我们来说是好事。”


    对于飞常准来说,央企中航信旗下的航旅纵横才是最大的威胁。“在一定程度上,它有垄断数据的嫌疑。”一位坚持匿名的专家说道。而面对记者的采访要求,航旅纵横以不便透露为由拒绝。目前,中航信拥有中国所有终端旅客详细的数据库,包括姓名、手机、消费习惯等,这是中航信最核心的资源。由于与航旅纵横母子公司的关系,非市场化的利益输送饱受诟病。


    在有关民航信息的关键数据中,空域流量是影响中国航班正点率的主要原因,而这一数据掌握在空管局手里。“空管局也愿意将数据分享给航空公司、机场,甚至是一些小公司,它们这么多年也在努力,可中国有自己特殊的情况。”上述专家说道。


    在中国,不到30%的空域对民航开放。和其它国家相比,中国是空域管制最为严格的国家之一。“民航系统也很头疼,七成多的空域属于国家机密,所以机场、空域关闭根本无法预知,何来公开的数据?”上述专家说道。


    在航班信息中,准点率是非常重要的一条数据。郑洪峰以此对比中美两国差异。“在国外,像准点率这些关键数据都是由政府全部公开的,因为准点率会决定哪家航空公司可以获得哪些航线,是航线资源分配一个非常重要的参数。但是,在中国,这个数据却是各家公司自己搜集的。”换句话说,相关政府部门并没有掌握到第一手的数据来源,遑论数据开放了。


    在石油、电信、铁路、民航等战略行业中,民航业的数据开放远远走在了其它行业的前头。上述电子商务公司的数据专家告诉本刊,设计物流工具时,他们更愿意与民航系统合作,不仅仅是快,还因为如果找相对封闭的铁路系统要一些关键性数据,“更难,更不靠谱。”数据专家说道。


    “有时,政府也有担心,你要数据做什么?有时他们第一反应是,‘间谍’;第二反应是,你用来赚钱的,我会不会存在什么风险。”上述民航专家说。这位民航专家的一部分工作是为相关政府写内部报告,有时需要跟民航系统要一些关键性数据,即便如此,也免不了遭遇相关政府部门的怀疑。


    中国传媒大学教授沈浩认为,现在的政府网站许多都是空架子,甚至大部分网站都很少更新,内容上也只是一些公告,而之前的决策过程并没有反映出来;与此同时,由于中国政府缺少推动力,尚无法建立像data.gov的数据平台。


    另外,根据BNET商学院对中国政府部门的调查分析显示,政府部门以数据分析作为决策支撑并没有形成气候,将数据分析作为核心竞争力的只占5.6%,比起美国和英国等政府开源力度差距巨大。


    此项调查的负责人,BNET商业英才网副总编周安利认为:政府部门依然缺乏对大数据的真正、全面的认识。在挖掘信息系统价值方面,数据分析也受制于管理体制和职能制约,及长期传统管理积累的习惯,业务驱动力不足,绩效考核不配套。所以中国政府部门对大数据可能产生的价值,以及如何利用数据分析实现政府的科学决策依然有相当长的距离要走。


    数字生产力


    如今,飞常准已经拥有300万月活跃用户,覆盖1万个国内航班,5万个国际航班。郑洪峰直言,飞常准的优势和主要收入来源就是利用大数据技术对数据进行收集、分析和加工。比如利用获得的收据,飞常准可以帮助保险公司制定航班延误保险,而这些都是政府和保险公司以前无法完成的。


    以前,航班延误险存在一个问题,就是保险公司让用户去举证,用户必须有各种各样的纸质证明才能从保险公司拿到赔偿,而赔偿金额往往只有两三百块钱,因此用户都不愿意买这个险。“而现在,航班一落地,通过我们的数据和服务,保险公司就知道是否超过保险阀值,没超过的,用户可以直接从保险公司拿到钱,过程非常简单。”郑说道。与保险公司的合作,郑洪峰得到的回报是收取一小部分服务佣金。


    数据开放不仅可以让小公司受益,而且可以让政府更加透明、负责任。美国政府前助理信息官、纽约大学法学院教授贝丝·诺维克(Beth Noveck)在她的《维基政府——运用互联网技术提高政府管理能力》一书中阐述了如何在数字化背景下,运用网络和大数据建立民主和高效的政府。“数据开放可以让体制内外的人一起参与进来,解决政府无法完成以及棘手的问题。”诺维克告诉《中国企业家》。


    诺维克以感染率数据为例说明开放数据的作用。美国的医疗部门搜集了全美几乎所有医院的感染率,但是政府并没有足够的能力把这些数据转化为有价值的信息。可是,当这些数据被放在data.gov网站上以后,微软和谷歌却能够运用自己强大的技术能力制作了一幅数据地图。不管是研究机构或者是普通患者都能运用搜索引擎查找任何一家医院的感染率来决定是否住院。


    而在中国互联网领域,此前受到虚假广告质疑的百度也开始与相关政府部门合作,利用后者的数据进行网络打假。百度相关负责人告诉《中国企业家》,以前百度需要从2000亿网页中筛查出有问题的假药网站,屏蔽虚假医疗信息非常困难,单纯依靠技术和管理手段的升级,难以达到打击假药的最佳效果。同时,百度作为一家企业,并不具备相关监管资质,这也是百度无法进行独立打击假药的问题所在。百度曾独立打击假药,但效果十分有限。


    从2010年开始,百度联合卫生部、国家药监局等多个部委部门发起“阳光行动”,打击各类互联网不良及虚假信息,之后,百度与国家药监局正式达成战略合作,国家药监局的三大药品数据库,总计20余万个权威药品信息向百度开放,而且这些数据库将随着药监局的数据变化实时更新。用户可以通过通俗的商品名、专业的药品名、批准文号等多个途径,在百度搜索到药品的权威信息。


    “作为5亿网民的互联网入口,百度一直以来都希望能利用搜索入口和平台优势,与各家具有数据资源优势的政府部门、权威机构联手,让权威信息全面入驻网络。”这位负责人说道,“重要的是,数据治国,相关政府部门也获得了很好的赞誉。”


    中国传媒大学教授沈浩认为,虽然中国政府在2007年就发布了《政府信息公开条例》,但目前政府公布的数据大部分还是报告和报表,没有标准的格式,不能以数据的形式查到,因此也无法进行深入的分析、加工和挖掘。


    “如果政府需要社会共享和分析这些数据,必须提供最原始的数据,这样的数据学术和商业上才能去应用它。”沈浩说,“你看data.gov的网站,在上面的联邦政府的数据库,都是以电脑可读取的格式发布的。”


    郑洪峰也意识到这个难题。他有时候会给相关政府、大公司提供一些数据,他力求寻找一种标准格式。而在这样的方向上,中国的一些公司也在与政府一起努力。


    高德软件有限公司三维应用事业部总经理赵珂告诉记者,以前的项目往往是政府立项再雇用公司去做,完成后政府拥有版权,这样导致数据市场不是市场经济而是投资拉动型的经济。而目前高德与地方测绘局采取的合作形式是授权模式,高德帮助政府采集数据。拥有了标准化的数据,相关政府就拥有了一个标准的基础数据库。“这是国家测绘局比较有远见的一个举措,相信我们未来和政府这类合作会越来越多。”赵珂说。


    郑洪峰也相信,未来会更务实更市场化,歧视性的东西会越来越少。中国的数据会越来越开放,也会更加利用市场的机制去鼓励更多的商业用户用好航班的数据。


    与此同时,郑洪峰也在以不同形式回馈于给他提供数据的政府相关部门和大公司,最近,他的团队正在撰写一份报告,名为《航班正点提高率计划》。

    03efe5c7f23e1ac59c78c5d3c1257b0a.jpg (66.54 KB, 下载次数: 201)

    03efe5c7f23e1ac59c78c5d3c1257b0a.jpg

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-4-29 23:13 , Processed in 0.492386 second(s), 57 queries .

    回顶部