QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 4755|回复: 6
打印 上一主题 下一主题

[转帖]数学之美——google中使用的数学以及数学模型;2:谈谈中文分词

[复制链接]
字体大小: 正常 放大
aqua2001        

930

主题

18

听众

4983

积分

升级  99.43%

  • TA的每日心情
    擦汗
    2016-1-30 03:42
  • 签到天数: 1 天

    [LV.1]初来乍到

    风雨历程奖 新人进步奖 优秀斑竹奖

    群组数学建模

    群组趣味数学

    群组C 语言讨论组

    群组Matlab讨论组

    群组2011年第一期数学建模

    跳转到指定楼层
    1#
    发表于 2006-10-12 03:06 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    数学之美 系列二 -- 谈谈中文分词

    发表者: 吴军, Google 研究员

    谈谈中文分词
    ----- 统计语言模型在中文处理中的一个应用

    上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”

    分成一串词:
    中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。

    最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出的。

    用 “查字典” 法,其实就是我们把一个句子从左向右扫描一遍,遇到字典里有的词就标识出来,遇到复合词(比如 “上海大学”)就找最长的词匹配,遇到不认识的字串就分割成单字词,于是简单的分词就完成了。这种简单的分词方法完全能处理上面例子中的句子。八十年代,哈工大的王晓龙博士把它理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。这种方法一个明显的不足是当遇到有二义性 (有双重理解意思)的分割时就无能为力了。比如,对短语 “发展中国家” 正确的分割是“发展-中-国家”,而从左向右查字典的办法会将它分割成“发展-中国-家”,显然是错了。另外,并非所有的最长匹配都一定是正确的。比如“上海大学城书店”的正确分词应该是 “上海-大学城-书店,” 而不是 “上海大学-城-书店”。

    九十年代以前,海内外不少学者试图用一些文法规则来解决分词的二义性问题,都不是很成功。90年前后,清华大学的郭进博士用统计语言模型成功解决分词二义性问题,将汉语分词的错误率降低了一个数量级。

    利用统计语言模型分词的方法,可以用几个数学公式简单概括如下:
    我们假定一个句子S可以有几种分词方法,为了简单起见我们假定有以下三种:
    A1, A2, A3, ..., Ak,
    B1, B2, B3, ..., Bm
    C1, C2, C3, ..., Cn

    其中,A1, A2, B1, B2, C1, C2 等等都是汉语的词。那么最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说如果 A1,A2,..., Ak 是最好的分法,那么 (P 表示概率):
    P (A1, A2, A3, ..., Ak) 〉 P (B1, B2, B3, ..., Bm), 并且
    P (A1, A2, A3, ..., Ak) 〉 P(C1, C2, C3, ..., Cn)
    因此,只要我们利用上回提到的统计语言模型计算出每种分词后句子出现的概率,并找出其中概率最大的,我们就能够找到最好的分词方法。

    当然,这里面有一个实现的技巧。如果我们穷举所有可能的分词方法并计算出每种可能性下句子的概率,那么计算量是相当大的。因此,我们可以把它看成是一个动态规划(Dynamic Programming) 的问题,并利用 “维特比”(Viterbi) 算法快速地找到最佳分词。

    在清华大学的郭进博士以后,海内外不少学者利用统计的方法,进一步完善中文分词。其中值得一提的是清华大学孙茂松教授和香港科技大学吴德凯教授的工作。

    需要指出的是,语言学家对词语的定义不完全相同。比如说 “北京大学”,有人认为是一个词,而有人认为该分成两个词。一个折中的解决办法是在分词的同时,找到复合词的嵌套结构。在上面的例子中,如果一句话包含“北京大学”四个字,那么先把它当成一个四字词,然后再进一步找出细分词 “北京” 和 “大学”。这种方法是最早是郭进在 “Computational Linguistics” (《计算机语言学》)杂志上发表的,以后不少系统采用这种方法。

    一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。Google 的葛显平博士和朱安博士,专门为搜索设计和实现了自己的分词系统。

    也许你想不到,中文分词的方法也被应用到英语处理,主要是手写体识别中。因为在识别手写体时,单词之间的空格就不很清楚了。中文分词方法可以帮助判别英语单词的边界。其实,语言处理的许多数学方法通用的和具体的语言无关。在 Google 内,我们在设计语言处理的算法时,都会考虑它是否能很容易地适用于各种自然语言。这样,我们才能有效地支持上百种语言的搜索。

    对中文分词有兴趣的读者,可以阅读以下文献:

    1. 梁南元
    书面汉语自动分词系统
    http://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf

    2. 郭进
    统计语言模型和汉语音字转换的一些新结果
    http://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf

    3. 郭进
    Critical Tokenization and its Properties
    http://acl.ldc.upenn.edu/J/J97/J97-4004.pdf

    4. 孙茂松
    Chinese word segmentation without using lexicon and hand-crafted training data
    http://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    zxlstoner        

    0

    主题

    2

    听众

    22

    积分

    升级  17.89%

    该用户从未签到

    新人进步奖

    回复

    使用道具 举报

    36

    主题

    7

    听众

    2050

    积分

  • TA的每日心情

    2017-3-4 20:24
  • 签到天数: 31 天

    [LV.5]常住居民I

    社区QQ达人 邮箱绑定达人 新人进步奖 最具活力勋章 发帖功臣

    群组数学建模

    群组数学趣味、游戏、IQ等

    群组LINGO

    群组Latex研学群

    群组C 语言讨论组

    回复

    使用道具 举报

    dugumen 实名认证       

    10

    主题

    6

    听众

    658

    积分

    升级  14.5%

  • TA的每日心情
    开心
    2014-7-23 20:50
  • 签到天数: 13 天

    [LV.3]偶尔看看II

    新人进步奖

    回复

    使用道具 举报

    1

    主题

    7

    听众

    328

    积分

    升级  9.33%

  • TA的每日心情
    开心
    2016-3-11 05:16
  • 签到天数: 73 天

    [LV.6]常住居民II

    社区QQ达人

    群组LINGO

    回复

    使用道具 举报

    汤圆225        

    0

    主题

    3

    听众

    113

    积分

    升级  6.5%

  • TA的每日心情

    2011-10-6 14:05
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    回复

    使用道具 举报

    5

    主题

    3

    听众

    378

    积分

    升级  26%

  • TA的每日心情

    2014-2-22 21:35
  • 签到天数: 89 天

    [LV.6]常住居民II

    群组数学建摸协会

    群组全国大学生数学建模竞

    群组学术交流C

    群组学术交流B

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2026-4-18 15:53 , Processed in 0.425373 second(s), 86 queries .

    回顶部