QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 3411|回复: 1
打印 上一主题 下一主题

大数据必须掌握的三个基本算法

[复制链接]
字体大小: 正常 放大
杨利霞        

5273

主题

82

听众

17万

积分

  • TA的每日心情
    开心
    2021-8-11 17:59
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    网络挑战赛参赛者

    网络挑战赛参赛者

    自我介绍
    本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。

    群组2018美赛大象算法课程

    群组2018美赛护航培训课程

    群组2019年 数学中国站长建

    群组2019年数据分析师课程

    群组2018年大象老师国赛优

    跳转到指定楼层
    1#
    发表于 2021-8-11 11:23 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    2 j7 \8 t; C8 i6 X5 g0 o* y
    大数据必须掌握的三个基本算法6 V3 o5 {7 b8 m7 x3 R) d1 j
    一全排序5 i2 O( D" q7 A9 R
    1111.jpg
    . S8 E+ y- O! A" `, L  e
    1 F+ n$ }! M7 L$ |8 P5 Y. ^! V

      R3 b2 B& Z$ _: X
    : K5 G" E( C% M  R6 @1 s( n
    9 J# t) S6 z9 x5 F9 F6 d
    Hadoop自带的Partitioner的实现有两种,一种为HashPartitioner, 默认的分区方式,计算公式 hash(key)%reducernum,另一种为TotalOrderPartitioner, 为排序作业创建分区,分区中数据的范围需要通过分区文件来指定。
    : y0 S: E! d, _6 `2 s- x$ ^& x! T4 V9 [( k# m

    ' C" n% ?4 m( N5 j1 c
    8 d) b: P" R! D" q3 y
    # W/ t' t. S: }$ T5 G4 v3 q
    + L) p: {4 m6 j9 o% k" {
    很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
    - {/ C: g! }) g- ]# ?  I1 |3 S: r3 {) n; {1 M
    & k4 f3 u6 F! k0 i8 p# K) I
    分区文件可以人为创建,如采用等距区间,如果数据分布不均匀导致作业完成时间受限于个别reduce任务完成时间的影响。
    : P4 I7 R- j. p' x7 y& J2 K6 e8 o4 E7 \" Y. Y' w. g
    $ v' c1 x8 X8 w) o6 V" A& G. T. I
    也可以通过抽样器,先对数据进行抽样,根据数据分布生成分区文件,避免数据倾斜。
    % f5 h! l4 b; z, @0 P& j9 J& o& P& G6 _: T, r3 W

      ~/ x- y0 C5 P* n: S注意,key可以是数字型,也可以是BinaryComparable(字符串),当是BinaryComparable时,则以key构造Trie Tree;否则以二分查找来确定key的所属区间。& P9 |. v. a+ {$ P1 g
    # M4 y3 w2 \, z& B0 c. c! x
    7 W& v( X( Z6 f$ [1 Q
    二单词共现矩阵算法5 K8 I5 b0 X- I" y: Y

      G3 A' W- p9 o: `
    7 X& N3 A; [( ?" f/ c+ P
    222.jpg   ~2 T. U6 d9 B+ U; y9 m
    " c! \- Q& }) w! X

    ; M: t6 W' F9 k, |; m% d% _# L其目的是在海量语料库中发现在固定窗口内单词a和单词b共同出现的频率,从而构建单词共现矩阵,这样的矩阵可以是对称的,也可以是不对称的,这要看具体的应用。
    ' x: j9 p0 h1 w4 n+ k; G7 a" X) Z: P1 Y& |- s

    8 d0 G  P: v; E% l5 f$ ]这种抽象化的任务的有效解决在实际生活中有着很多的应用。例如电子商家希望发现不同物品被同时购买的情况以便有效安排货物的摆放位置;同时对信息检索领域同义词词典的构建以及文本挖掘等都有着重要的实际应用价值。, A7 `0 p, T$ X  F1 d# g* u9 h0 I
    ( o- ?9 B% i: i- H- [9 c& \/ t

    ' b$ N* O) ~- A6 x5 _根据同现关系的不同,可能需要实现和定制不同的FileInputFormat和RecordReader,如同现关系为一个英文句子,则需要实现以一个英文句子为单位的FileInputFormat和RecordReader,如同现关系为一个段落,则需要实现以一个段落为单位的FileInputFormat和RecordReader$ E& u& V+ C  R  l# k1 V1 O

    4 V" G$ P+ Q' Y9 n
    , g! k  X, E" C/ }: O2 ^

    8 w1 _( _' H* Q2 m0 j3 m' O
    ) q8 {8 t. S, O) W! I
    三倒排索引
    4 S# R9 c9 M' X; A( D: ~4 p8 L1 R: d% t

    ' `4 v* ?) O& C4 `$ K3 ]2 c# o* L 444.jpg 333.jpg
      S! |7 d/ D$ U; |/ g- F
    ( C( y  b3 @( Z6 z  W) f+ g+ e
    8 X: X& }' y+ a- g8 |% {7 _5 h
    8 k% C5 @8 [+ j% C( f! U* X% }

    5 \5 @6 f# N! f5 p
    1 W8 B, s0 f2 e* G* y# ?
    ! j, ?8 j1 S. [; z2 J
    Inverted Index(倒排索引)是目前几乎所有支持全文检索的搜索引擎都要依赖的一个数据结构。基于索引结构,给出一个词(term),能取得含有这个term的文档列表(the list of documents),没什么可说的,必须掌握。' o* \/ ~* [% \; q( l( T
    ————————————————
    - x% [% a$ W' w+ R" [6 F8 K- q版权声明:本文为CSDN博主「铁拳虎」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。2 ~, q! b! ?9 t+ [
    原文链接:https://blog.csdn.net/juan189/article/details/84932486
    - x  Q9 e# J" [5 G5 Y: A/ }
    . j3 s* ~9 j+ Y4 _7 T. f& J6 s3 g- E/ s% K+ z+ w
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信

    0

    主题

    10

    听众

    299

    积分

    升级  99.5%

  • TA的每日心情
    开心
    2023-10-14 10:28
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2025-12-8 16:28 , Processed in 0.479503 second(s), 58 queries .

    回顶部