. J' m! u# W' E5 z7 s, _, o & u" V. G; [6 M0 O0 ~ $ s4 V2 S1 s& a6 V# Q5 V) v9 T9 b
3 k9 E. n4 i- o; f! v% y/ p- }/ E很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:199427210,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系6 u5 o" W3 I; \6 L. U2 r
! i. K' ?- i' E" a$ @9 K; p1 b2 H
5 p7 S$ j$ l; O% u X) T分区文件可以人为创建,如采用等距区间,如果数据分布不均匀导致作业完成时间受限于个别reduce任务完成时间的影响。 z3 M+ L% I' i' E
5 {* H5 `5 N3 i9 t
3 G% V8 \" v; ?- j& h: ?5 G7 j也可以通过抽样器,先对数据进行抽样,根据数据分布生成分区文件,避免数据倾斜。 3 W' L: ]3 q$ } 0 y4 Q; r! F' s 2 U$ ]) a, S$ `' t注意,key可以是数字型,也可以是BinaryComparable(字符串),当是BinaryComparable时,则以key构造Trie Tree;否则以二分查找来确定key的所属区间。 i8 |' q! e" u8 P
3 l) @ b: P# j8 n$ ?) D