查看: 1229|回复: 0

从百度视频看大数据与人工智能

字体大小: 正常放大

math3056

445 主题	9 听众	1143 积分

升级 14.3%

TA的每日心情

	衰 2014-6-21 01:29

签到天数: 45 天

[LV.5]常住居民I

自我介绍: 没有

电梯直达

1^#

发表于 2014-4-17 10:25 |只看该作者 |倒序浏览

|招呼Ta 关注Ta

[核心提示] 大数据的应用决策可以拆解成两种层面，第一种是利用个体数据为个体进行决策，第二种是利用群体数据为群体进行决策。结合的案例，看看大数据与人工智能是具体如何应用的。

近日，了解到百度视频在升级迭代上利用大数据做了很多事情，这让我真实的感受到了大数据的价值。其中我将大数据的应用决策拆解成两种层面，第一种是利用个体数据为个体进行决策，第二种是利用群体数据为群体进行决策。

以下，结合百度视频已经实现以及将要实现的案例，来看下大数据与人工智能是具体如何应用的。

大数据个性化决策

个性化决策无疑是难度最高的，因为个性化决策是根据用户行为记录来为用户做出相应的推荐。

百度在无线端有大量的产品，其中用户数过亿的 APP 就多达 14 款。百度内部有专门的团队，分析用户在这些 APP 中的行为，利用算法估算用户的年龄、性别、职业、兴趣等特征。

这一技术在百度工程师那里称为用户建模，这些数据来自于用户手机里安装的百度应用如“百度地图”、“百度贴吧”、“百度魔图”外加一些使用百度开放接口的应用诸如“糗事百科”等等，百度是能够通过这些数据进而来为用户建立动态模型。

百度视频的个性化推送是典型的利用群体智慧来解决个体需求的例子。传统的视频 APP 通常以广播的方式为用户推送视频，即每个用户收到的消息内容是一样的，无法满足用户个性化的需求。百度视频的做法是，分析用户的历史观看记录，同时结合用户的性别、年龄、地域等特征，为用户建立兴趣模型，将用户可能感兴趣但却未观看过的视频推送给用户。

比如一个经常上动漫贴吧的用户，百度通过搜集大数据后判断其是 20 岁左右的大学生，在个性化推送上就和其他人群就有所不同，可能就会推送一些大学生圈子里比较流行的动漫以及韩剧之类。

简而言之，用户使用的百度系以及带有百度接口产品的产品越多，百度就能越能为用户建立个人模型，所有使用过的产品的数据会汇聚到百度云端，人工智能最后再绘制出一个人的画像，百度再根据这个画像再为每个应用进行大数据决策推送，再根据用户的反馈结果进行迭代试错，当然这是机器学习的部分，不必要再深入讨论下去。我画了一个简单的百度个性化推荐原理。

大数据群体化决策个体与群体的价值思辨

之前我对百度个性化推送提出过缺陷的质疑，一旦当用户更换手机之后，百度就无法再次为其建立个人画像模型，进而也就失去了对于个人的意义，百度又要重新建立个人数据，十分麻烦。

而深入了解百度的大数据之后让我感到更有一番深度，百度的大数据并非只为个体用户服务，更重要的是建立群体宏观行为模型，通过这一整套模型为群体进行宏观决策，而群体决策部分的重要战略意义远远大于个体意义。

我对此的理解为：如果我们将人类整体行为看做为个体行为，那么同样的作为个人总有一些误操作，一些随机的非主流的边缘操作，而这些边缘操作对于机器学习来说只是噪声而非信号，是需要进行过滤的，那么机器就需要过滤掉这些没有价值的数据，将有价值的信号数据沉淀与固定下来，为整体行为进行决策。

所以在某种程度上，我们都会陷入个性化至上的错觉，而忽略群体数据决策的价值。再回到百度之前的个性化推送功能，这些推送一定是事先经过群体过滤过后的信号，再向用户推送后才会更戳中人心。比如百度通过数据判断出最新流行的韩剧是《来自星星的你》，而不是过气的《大长今》，继而向用户推荐《星星》，这些都不是人工的，完全是自动生成的。

也就是，这场思辨中我得出了一个关于大数据的重要结论，机器为个人的数据提供个人喜好的小范围数据，而群体大数据决策后的结果在为个体扩大范围。

个性化推送为个人提供确定性，为群体提供不确定性。而群体决策为个人提供不确定性，为群体提供确定性。

二者的噪声互为价值，二者的信号互为干扰。

人工智能或许永远无法超越人类

上次我和赵云峰还有刘峰老师在 3W 咖啡里讨论了人工智能的未来，其中我们谈论到了图灵测试，我们分析到图灵测试的程序虽然越来越厉害了，但这依然是工具而已，本质上人与人的博弈罢了，机器永远无法脱离人类进行自学习。

那么这里回到百度视频上来，百度目前做到了平均给每部视频贴上上百个标签，而且这些标签根据时间还在不断的更新与迭代，不仅如此，这些标签还在不断的自行关联。所以百度视频能够做到，搜索诸如“高智商电影”会出现《盗梦空间》、《禁闭岛》、《源代码》等等这样的关联。

有人问，这些成百上千的标签都是人工匹配的吗？如果这样，百度人力需要很多啊。实际上标签是机器全自动做好的。但制定标签还是需要人，机器应当是通过用户先搜索到某个关键词然后经过一系列的行为判断该关键词与某电影的关系，通过大量用户的反复出现的数据，机器再建立出这些关联。

假如有一天机器能够完全通过独立的自我学习，通过自身而不借助人类去关联这些标签词汇与电影的关系。那一刻才能算是真正实现了人工智能。

这只能说明我和赵云峰还有刘老师在 3W 咖啡的谈话是多么无聊的正确，对于机器来说，人类就像他们的发动机，他们无法做到产生真正的意识，他们无法像人类一样进行自我追问一切的起源，0 与 1 的结构。

是啊，人类是多么孤独，因为只有人类才会意识到自己的孤独，而机器不会。但又或许，是我们正在共同创造机器的意识吧，这个超级有机体将会成为我们。

最后奉上，根据理论，未来的大数据的群体与个人结合的私人定制图。

via：极客公园作者：承哲