- 在线时间
- 1630 小时
- 最后登录
- 2024-1-29
- 注册时间
- 2017-5-16
- 听众数
- 82
- 收听数
- 1
- 能力
- 120 分
- 体力
- 564452 点
- 威望
- 12 点
- 阅读权限
- 255
- 积分
- 174558
- 相册
- 1
- 日志
- 0
- 记录
- 0
- 帖子
- 5313
- 主题
- 5273
- 精华
- 3
- 分享
- 0
- 好友
- 163
TA的每日心情 | 开心 2021-8-11 17:59 |
|---|
签到天数: 17 天 [LV.4]偶尔看看III 网络挑战赛参赛者 网络挑战赛参赛者 - 自我介绍
- 本人女,毕业于内蒙古科技大学,担任文职专业,毕业专业英语。
 群组: 2018美赛大象算法课程 群组: 2018美赛护航培训课程 群组: 2019年 数学中国站长建 群组: 2019年数据分析师课程 群组: 2018年大象老师国赛优 |
]: F8 I* D$ k2 T! Z- \大数据必须掌握的三个基本算法
m% M! \: q' F# t* Q一全排序+ N) K, Z T+ K: s
5 }$ V! L [$ p* x% X
% c' V/ H) {( @! E/ z. t) g/ l( ^8 ^1 n8 b- H- `' q. k: i7 @
% h+ _' R4 ~$ a+ B% J
" \" T4 U. N% F0 wHadoop自带的Partitioner的实现有两种,一种为HashPartitioner, 默认的分区方式,计算公式 hash(key)%reducernum,另一种为TotalOrderPartitioner, 为排序作业创建分区,分区中数据的范围需要通过分区文件来指定。0 m& D! F4 c% w+ m0 ~0 J
3 Q) P) \' z( d( j8 ?" m0 F" X8 \
1 N; P y% r4 ~8 T+ \, A+ E # x4 }2 j( I0 Q4 k. {
9 X% {+ q+ Z1 c
9 t/ ^9 X5 M/ ?6 {, d- r- @4 ~) V很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
: b3 A [) s4 {' x r" g* D) p) _1 h
- e- P/ a% f' k分区文件可以人为创建,如采用等距区间,如果数据分布不均匀导致作业完成时间受限于个别reduce任务完成时间的影响。5 d6 ^5 c7 |) ~& K: g0 y
, w8 T8 {4 Z; R
8 X! P1 W$ m1 F/ p- Z( w5 A* \也可以通过抽样器,先对数据进行抽样,根据数据分布生成分区文件,避免数据倾斜。
$ u3 p1 M9 W/ a; ^
3 Z+ P1 f) y; }2 Y! R$ d( H6 A" }7 F' M1 u! I
注意,key可以是数字型,也可以是BinaryComparable(字符串),当是BinaryComparable时,则以key构造Trie Tree;否则以二分查找来确定key的所属区间。* j4 r9 p) p2 B Z' e/ y
6 E1 S1 u* |# g' n
2 g7 Y+ i. c* J$ k W7 u" J, _二单词共现矩阵算法# R" u/ o8 x' v v. ~9 k2 `
- r. O$ k; |- _- g
6 a% w, z0 G! E* J2 y: B
2 ^! ~4 p+ B8 a# P( U8 d( }- ~% r
: C. @9 i# J* x
其目的是在海量语料库中发现在固定窗口内单词a和单词b共同出现的频率,从而构建单词共现矩阵,这样的矩阵可以是对称的,也可以是不对称的,这要看具体的应用。: x0 I5 \& v, O9 k5 V5 c
; O0 D- B" { I) M2 ?% y8 `
; X" h- d! b+ u' V, W这种抽象化的任务的有效解决在实际生活中有着很多的应用。例如电子商家希望发现不同物品被同时购买的情况以便有效安排货物的摆放位置;同时对信息检索领域同义词词典的构建以及文本挖掘等都有着重要的实际应用价值。
4 O+ S! @/ c$ v3 @0 F: I& E8 U+ ~& p4 I: B0 @+ c
, K0 p; r* p) J3 W5 ^. v7 m( i
根据同现关系的不同,可能需要实现和定制不同的FileInputFormat和RecordReader,如同现关系为一个英文句子,则需要实现以一个英文句子为单位的FileInputFormat和RecordReader,如同现关系为一个段落,则需要实现以一个段落为单位的FileInputFormat和RecordReader9 b) w8 a! n* c! y8 p* T
9 Y! D) E$ z; {1 Q: d7 x6 v
/ n2 X+ t+ X2 G
! }) e. C" f/ l
8 I/ L1 X K7 V三倒排索引
2 y/ Z6 F3 c: J7 ~+ ]+ u7 F/ d; @6 }( Q2 f* W! U
5 {7 ^" `1 F6 O! Z6 `$ o0 u$ T
( }: n+ i. w. ^+ E' R, U
- ~. Y% Z. \( | D
6 i* C% j+ q8 R' {' f
, B0 H4 K% `( ^4 ?2 r0 K; J5 n8 V: ? ^1 T/ n( f h5 R; s0 E
+ I% X& I( i* V+ a; ]' n0 i* C, k# Z2 y! p! R
Inverted Index(倒排索引)是目前几乎所有支持全文检索的搜索引擎都要依赖的一个数据结构。基于索引结构,给出一个词(term),能取得含有这个term的文档列表(the list of documents),没什么可说的,必须掌握。
% t2 Z- g2 \" s7 B: w' ?5 v2 z q————————————————6 I/ p* F: Q. j& S4 l2 j' T3 s
版权声明:本文为CSDN博主「铁拳虎」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
/ W+ p# V4 F/ g1 a1 T原文链接:https://blog.csdn.net/juan189/article/details/84932486) r( W: Z0 w, F+ I/ }2 P, h" j$ {
$ f$ {8 E! i/ b" U/ ?2 w6 p
2 o$ W3 @. s' O6 ]: w |
zan
|