huffman 树的问题

hnrjeff 发表于 2009-9-5 15:18

到底huffman树是怎么样的，具体的应用呢

wen1055 发表于 2009-9-5 16:34

信息论里面有个哈夫曼编码，就是概率小的码元编的码长，概率小的编的码小~~最终目标是使平均码长最短~从而提高传输效率~

liuyaliss 发表于 2009-9-6 15:03

对文件进行压缩编码

liuyaliss 发表于 2009-9-6 15:10

哈夫曼树的应用
哈夫曼树的应用十分广泛，在不同的应用中，对叶子结点的权和带权路径长度有不同的解释。

哈夫曼树的应用之一是用于优化判断过程，利用哈夫曼树得到最佳判定算法。例如，将百分制转换成五级制的算法。显然，此算法很简单，只需利用if语句描述即可。

if ( x<60)

   score=’不及格’;

else if ( x<70)

   score=’及格’;

else if ( x<80)

   score=’中’;

else if ( x<90)

   score=’良’;

else

   score=’优’;

此判定过程可以用图6.33(a)的判定树来表示。如果学生规模很大，该算法需反复多次执行，就应该考虑算法执行的时间问题。在实际应用中，学生的成绩呈正态分布，大部分在70~89分之间，优秀和不及格的概率较小。假设不及格、及格、中、良、优的百分比为5％、12%、40%、35%、8%，则上述算法80%以上的成绩需要进行三次或三次以上的比较才能得到结果。若以这些百分比值5,12,40,35,8为权值，使用哈夫曼算法来构造一棵判定树，则得到图6.33(b)所示的判定过程，可使多数成绩经过较少的比较即可得到结果。但由于每个判定框都有两次比较，将两次比较分开，得到如图6.33(c)所示的判定树，按此判定树构造程序，显然可以大大减少比较次数。

            x                                     x

         x<60                               70≤x<80

      Y       N                         Y          N

   不及格       x<70                      中       80≤x<90

            Y       N                         Y          N

         及格       x<80                      良       60≤x<70

                  Y       N                            Y       N

               中       x<90                         x<60    及格

                     Y       N                Y       N

                  良          优          不及格       优

(a)                                                                                                                (b)

            x

            x<80

   Y

x<70             x<90

Y       N       Y       N

                     x<60       中    良       优

               Y       N

            不及格    及格

         （c）

                     图6.33 百分制转换五级制的判定过程

哈夫曼树在通信、编码和数据压缩等技术领域也有着广泛的应用。下面我们介绍哈夫曼树在数据编码中的应用，即数据的最小冗余编码问题。

在数据通信中，需要将传送的文字转换成二进制的字符串，用0，1码的不同排列来表示字符。例如，需传送的报文为“AFTER  DATA  EAR ARE ART AREA”，这里用到的字符集为“A，E，R，T，F，D”，各字母出现的次数为{8，4，5，3，1，1}。现要求为这些字母设计编码。要区别6个字母，最简单的二进制编码方式是等长编码，固定采用3位二进制，可分别用000、001、010、011、100、101对“A，E，R，T，F，D”进行编码发送，当对方接收报文时再按照三位一分进行译码。显然编码的长度取决报文中不同字符的个数。若报文中可能出现26个不同字符，则固定编码长度为5。然而，传送报文时总是希望总长度尽可能短。在实际应用中，各个字符的出现频度或使用次数是不相同的，如A、B、C的使用频率远远高于X、Y、Z，自然会想到设计编码时，让使用频率高的用短码，使用频率低的用长码，以优化整个报文编码。但这样长短不等的编码又会产生一个新问题，即如何解译成原文？除非设计时能够保证任何一个字符的编码都不是同一字符集中另一个字符的编码的前缀，符合此要求的编码称为前缀编码。

为使不等长编码为前缀编码，可用字符集中的每个字符作为叶子结点生成一棵编码二叉树，为了获得传送报文的最短长度，可将每个字符的出现频率作为字符结点的权值赋予该结点上，求出此树的最小带权路径长度就等于求出了传送报文的最短长度。因此，求传送报文的最短长度问题转化为求由字符集中的所有字符作为叶子结点，由字符出现频率作为其权值所产生的哈夫曼树的问题。利用哈夫曼树来设计二进制的前缀编码，既满足前缀编码的条件，又保证报文编码总长最短。

我们用上述各字母出现的次数{8，4，5，3，1，1}作为权构造哈夫曼树，如图6.36所示。约定左分支表示字符“0”，右分支表示字符“1”，则可以从根结点到叶子结点的路径的分支上的字符组成的字符串作为该叶子对应字符的编码。可以证明，如此得到的必为二进制前缀编码，而且是一种最优前缀编码。我们称这样的树为哈夫曼编码树，由此得到的编码称为哈夫曼编码。本例中字母A、E、R、T、F、D的哈夫曼编码分别为11、00、01、011、0100、0101。可以看出，出现次数较多的字母A、E、R，具有最短的编码，长度均为2；而出现次数最少的字母F、D，具有最长的编码，长度均为4。报文的最短传送长度为：

   6

L=WPL=S(wklk)=4×2+5×2+8×2+3×3+1×4+1×4=51

      k=1

若采用等长编码，报文的传送长度为

L=8×3+4×3+5×3+3×3+1×3+1×3=66

显然，哈夫曼编码比等长编码所得到的报文长度要短得多。哈夫曼编码是最优前缀编码。

                        22

                     0    1

9                      13

                     0    1 0    1

                     4    5 5    8

                  E 0 1  R    A

2    3

                     0 1 T

                  1    1

               F    D

图6. 36 哈夫曼编码树

一个任意长度的编码序列可被唯一地翻译为一个字符序列（单词）。依次取出编码序列中的0或1，从哈夫曼编码树的根结点开始寻找一条路径。若为0，则沿着左分支向下走；若为1，则沿着右分支向下走。每到达一个叶子外结点时，就译出一个相应的字符，然后再回到哈夫曼树的根结点处，依次译出余下的字符，最后得到一个单词。

liuyaliss 发表于 2009-9-6 15:10

liuyaliss 发表于 2009-9-6 15:12

不好意思多发了一次

页: [1]

数学建模社区-数学中国's Archiver

huffman 树的问题