QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 647|回复: 0
打印 上一主题 下一主题

来自Google的内部报告:大数据的类型和数量同样重要

[复制链接]
字体大小: 正常 放大
math3056        

446

主题

9

听众

1143

积分

升级  14.3%

  • TA的每日心情

    2014-6-21 01:29
  • 签到天数: 45 天

    [LV.5]常住居民I

    自我介绍
    没有
    跳转到指定楼层
    1#
    发表于 2014-4-17 14:40 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    一份来自Google的内部报告显示,大数据在构建面向消费者的服务(如智能手机中的语音搜索)时尤其重要。用来训练人工智能模型的数据越多,它越有可能猜出你下一句会说啥。虽然这份报告背后的数学知识可能超出大部分人的理解范围,但是原理并不复杂。报告还提到了为何大家都对“大数据”这一概念如此兴奋,以及选择恰当的数据来训练智能模型的重要性。
    Google一直秉承着这样一个观点:“数据越多越好。”Google的研发总监Peter Noevig也在09年的论文《数据的非理性效应》中表达了这样的观点,一般来说,更多的数据能催生更好的算法。你能为模型提供可供学习的数据越多,模型的准确度也会越高。
    这一理论同样适用于语音识别系统的构建。研究者发现更大的数据集和语言模型能够提高依据一个单词猜测下个单词的准确度。Google的数据专家Ciprian也在一篇博文中提到一个例子:更好的语言模型会在前两个词是“New York”时,更倾向于预测下个词是“披萨”而不是“燕麦卷”。在语音搜索中,Ciprian的团队也发现如果将模型大小提高两个数量级,错误率会相应的降低约10%。
    就像所有的数据科学家会告诉你的那样,真正的关键在于弄清什么类型的数据最适合用来训练你的模型。在语音搜索领域,Google使用的数据包含2300亿个单词,这些单词都来自Google接收到的搜索请求。由于人们在说话和打字时的语言使用习惯不一样,训练YouTube模型的数据主要来自于新闻广播的录音文本和大型网络爬虫。
    这份报告中并没有介绍太多突破性进展,但是可以帮助大家更好的理解为何大数据突然变得如此有吸引力。随着消费者对智能应用和顺畅用户体验的要求越来越高,如何对大数据进行分析也将越来越重要。
    via Gigaom
    除非注明,本站文章均为原创或编译,转载请注明: 文章来自36氪


    本文由36氪授权(果壳网)发表,文章著作权为原作者所有。

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-4-28 02:14 , Processed in 0.365114 second(s), 53 queries .

    回顶部