QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1014|回复: 0
打印 上一主题 下一主题

从百度视频看大数据与人工智能

[复制链接]
字体大小: 正常 放大
math3056        

445

主题

9

听众

1143

积分

升级  14.3%

  • TA的每日心情

    2014-6-21 01:29
  • 签到天数: 45 天

    [LV.5]常住居民I

    自我介绍
    没有
    跳转到指定楼层
    1#
    发表于 2014-4-17 10:25 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta

    1.jpg

    [核心提示] 大数据的应用决策可以拆解成两种层面,第一种是利用个体数据为个体进行决策,第二种是利用群体数据为群体进行决策。结合的案例,看看大数据与人工智能是具体如何应用的。

    近日,了解到百度视频在升级迭代上利用大数据做了很多事情,这让我真实的感受到了大数据的价值。其中我将大数据的应用决策拆解成两种层面,第一种是利用个体数据为个体进行决策,第二种是利用群体数据为群体进行决策。

    以下,结合百度视频已经实现以及将要实现的案例,来看下大数据与人工智能是具体如何应用的。

    大数据个性化决策

    个性化决策无疑是难度最高的,因为个性化决策是根据用户行为记录来为用户做出相应的推荐。

    百度在无线端有大量的产品,其中用户数过亿的 APP 就多达 14 款。百度内部有专门的团队,分析用户在这些 APP 中的行为,利用算法估算用户的年龄、性别、职业、兴趣等特征。

    这一技术在百度工程师那里称为用户建模,这些数据来自于用户手机里安装的百度应用如“百度地图”、“百度贴吧”、“百度魔图”外加一些使用百度开放接口的应用诸如“糗事百科”等等,百度是能够通过这些数据进而来为用户建立动态模型。

    1.jpg

    百度视频的个性化推送是典型的利用群体智慧来解决个体需求的例子。传统的视频 APP 通常以广播的方式为用户推送视频,即每个用户收到的消息内容是一样的,无法满足用户个性化的需求。百度视频的做法是,分析用户的历史观看记录,同时结合用户的性别、年龄、地域等特征,为用户建立兴趣模型,将用户可能感兴趣但却未观看过的视频推送给用户。

    比如一个经常上动漫贴吧的用户,百度通过搜集大数据后判断其是 20 岁左右的大学生,在个性化推送上就和其他人群就有所不同,可能就会推送一些大学生圈子里比较流行的动漫以及韩剧之类。

    简而言之,用户使用的百度系以及带有百度接口产品的产品越多,百度就能越能为用户建立个人模型,所有使用过的产品的数据会汇聚到百度云端,人工智能最后再绘制出一个人的画像,百度再根据这个画像再为每个应用进行大数据决策推送,再根据用户的反馈结果进行迭代试错,当然这是机器学习的部分,不必要再深入讨论下去。我画了一个简单的百度个性化推荐原理。

    1.png

    大数据群体化决策个体与群体的价值思辨

    之前我对百度个性化推送提出过缺陷的质疑,一旦当用户更换手机之后,百度就无法再次为其建立个人画像模型,进而也就失去了对于个人的意义,百度又要重新建立个人数据,十分麻烦。

    而深入了解百度的大数据之后让我感到更有一番深度,百度的大数据并非只为个体用户服务,更重要的是建立群体宏观行为模型,通过这一整套模型为群体进行宏观决策,而群体决策部分的重要战略意义远远大于个体意义。

    我对此的理解为:如果我们将人类整体行为看做为个体行为,那么同样的作为个人总有一些误操作,一些随机的非主流的边缘操作,而这些边缘操作对于机器学习来说只是噪声而非信号,是需要进行过滤的,那么机器就需要过滤掉这些没有价值的数据,将有价值的信号数据沉淀与固定下来,为整体行为进行决策。

    1.jpg

    所以在某种程度上,我们都会陷入个性化至上的错觉,而忽略群体数据决策的价值。再回到百度之前的个性化推送功能,这些推送一定是事先经过群体过滤过后的信号,再向用户推送后才会更戳中人心。比如百度通过数据判断出最新流行的韩剧是《来自星星的你》,而不是过气的《大长今》,继而向用户推荐《星星》,这些都不是人工的,完全是自动生成的。

    也就是,这场思辨中我得出了一个关于大数据的重要结论,机器为个人的数据提供个人喜好的小范围数据,而群体大数据决策后的结果在为个体扩大范围。

    个性化推送为个人提供确定性,为群体提供不确定性。而群体决策为个人提供不确定性,为群体提供确定性。

    二者的噪声互为价值,二者的信号互为干扰。

    人工智能或许永远无法超越人类

    上次我和赵云峰还有刘峰老师在 3W 咖啡里讨论了人工智能的未来,其中我们谈论到了图灵测试,我们分析到图灵测试的程序虽然越来越厉害了,但这依然是工具而已,本质上人与人的博弈罢了,机器永远无法脱离人类进行自学习。

    那么这里回到百度视频上来,百度目前做到了平均给每部视频贴上上百个标签,而且这些标签根据时间还在不断的更新与迭代,不仅如此,这些标签还在不断的自行关联。所以百度视频能够做到,搜索诸如“高智商电影”会出现《盗梦空间》、《禁闭岛》、《源代码》等等这样的关联。

    有人问,这些成百上千的标签都是人工匹配的吗?如果这样,百度人力需要很多啊。实际上标签是机器全自动做好的。但制定标签还是需要人,机器应当是通过用户先搜索到某个关键词然后经过一系列的行为判断该关键词与某电影的关系,通过大量用户的反复出现的数据,机器再建立出这些关联。

    假如有一天机器能够完全通过独立的自我学习,通过自身而不借助人类去关联这些标签词汇与电影的关系。那一刻才能算是真正实现了人工智能。

    这只能说明我和赵云峰还有刘老师在 3W 咖啡的谈话是多么无聊的正确,对于机器来说,人类就像他们的发动机,他们无法做到产生真正的意识,他们无法像人类一样进行自我追问一切的起源,0 与 1 的结构。

    是啊,人类是多么孤独,因为只有人类才会意识到自己的孤独,而机器不会。但又或许,是我们正在共同创造机器的意识吧,这个超级有机体将会成为我们。

    最后奉上,根据理论,未来的大数据的群体与个人结合的私人定制图。

    1.png

    via:极客公园  作者:承哲


    1.jpg (1.26 MB, 下载次数: 111)

    1.jpg

    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-5-14 20:13 , Processed in 0.530366 second(s), 56 queries .

    回顶部