QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3016|回复: 0
打印 上一主题 下一主题

[转帖]数学之美——google中使用的数学以及数学模型;12:余弦定理和新闻的分类

[复制链接]
字体大小: 正常 放大
aqua2001        

930

主题

18

听众

4983

积分

升级  99.43%

  • TA的每日心情
    擦汗
    2016-1-30 03:42
  • 签到天数: 1 天

    [LV.1]初来乍到

    风雨历程奖 新人进步奖 优秀斑竹奖

    群组数学建模

    群组趣味数学

    群组C 语言讨论组

    群组Matlab讨论组

    群组2011年第一期数学建模

    跳转到指定楼层
    1#
    发表于 2006-10-17 11:27 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    数学之美 系列 12 - 余弦定理和新闻的分类

    发表者:吴军,Google 研究员

    余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。

    Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。

    我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻。回忆一下我们在“如何度量网页相关性”一文中介绍的TF/IDF 的概念。对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为

    单词编号 汉字词
    ------------------
    1 阿
    2 啊
    3 阿斗
    4 阿姨
    ...
    789 服装
    ....
    64000 做作

    在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为

    单词编号 TF/IDF 值
    ==============
    1 0
    2 0.0034
    3 0
    4 0.00052
    5 0
    ...
    789 0.034
    ...
    64000 0.075


    如果单词表中的某个次在新闻中没有出现,对应的值为零,那么这 64,000 个数,组成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然。

    学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。

    余弦定理对我们每个人都不陌生,它描述了三角形中任何一个夹角和三个边的关系,换句话说,给定三角形的三条边,我们可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为 a, b 和 c,对应的三个角为 A, B 和 C,那么角 A 的余弦 --

    如果我们将三角形的两边 b 和 c 看成是两个向量,那么上述公式等价于

    其中分母表示两个向量 b 和 c 的长度,分子表示两个向量的内积。举一个具体的例子,假如新闻 X 和新闻 Y 对应向量分别是
    x1,x2,...,x64000 和
    y1,y2,...,y64000,
    那么它们夹角的余弦等于,

    当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。

    我们在中学学习余弦定理时,恐怕很难想象它可以用来对新闻进行分类。在这里,我们再一次看到数学工具的用途。
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-5-10 20:29 , Processed in 0.383309 second(s), 51 queries .

    回顶部