[PDF]基于大数据的数据挖掘引擎
基于大数据的数据挖掘引擎北京邮电大学 樊嘉麒本文完成了以下工作:(1)调研了两种主要的大数据并行计算模型一一以MapReduce为编程范式的编程模型和以内存计算算子为编程范式的编程模型。通过比较其计算效率、编程接口丰富程度和友好性等方面,确定了采用内存计算的方式,并以Spark作为大数据处理的核心引擎。(2)基于Spark的内存计算模型及其提供的若干个动作、转换算子,完成了两个传统数据挖掘算法一-Apriori和PageRank的并行化改造。通过实验验证了这两个算法的执行效率和并行化效果。(3...查看完整版>>