张志红 发表于 2023-6-7 16:12

一种用于大数据内容安全监测的快速相似匹配并行算法

     为了提高大数据集基于内容的相似匹配速度,本文采用MapReduce框架实现了一种并行的相似匹配算法,解决了大数据信息安全监测中的快速相似匹配问题。算法基于先过滤、再验证的方式设计了三个阶段。在配对阶段,通过对索引子串和匹配子串进行配对去除了不包含共享q-gram的无关对;在过滤阶段,通过q-gram命中特征过滤掉了一定不是真实匹配的候选对;在验证阶段,通过计算候选对的真实匹配度找出了满足要求的真实匹配。实验结果证明,本文提出的字符串分割过滤方法有效地提高了相似匹配的速度。

页: [1]
查看完整版本: 一种用于大数据内容安全监测的快速相似匹配并行算法