1047521767 发表于 2023-7-5 12:05

大数据——海量数据处理的基本方法总结

海量数据处理概述所谓海量数据处理,就是数据量太大,无法在较短时间内迅速解决,无法一次性装入内存。本文在前人的基础上总结一下解决此类问题的办法。那么有什么解决办法呢?
时间复杂度方面,我们可以采用巧妙的算法搭配合适的数据结构,如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树。空间复杂度方面,分而治之/hash映射。海量数据处理的基本方法总结起来分为以下几种:
[*]分而治之/hash映射 + hash统计 + 堆/快速/归并排序;
[*]双层桶划分;
[*]Bloom filter/Bitmap;
[*]Trie树/数据库/倒排索引;
[*]外排序;
[*]分布式处理之Hadoop/Mapreduce。


页: [1]
查看完整版本: 大数据——海量数据处理的基本方法总结