• MapReduce计算模型的优化

   MapReduce 计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化:二是I/O操作方面的优化。这其中,又包含六个方面的内容。 1.任务调度 任务调度是H...

  cyq1162 2022-07-28 15:48:05阅读:22
 • Hadoop 学生平均成绩

  1.实例描述  通过一个计算学生平均成绩的例子来讲解开发MapReduce程序的流程。输入文件都是纯文本文件,输入文件中的每行内容均为一个学生的姓名和他相应的成绩,如果有多门学科,则每门学科为...

  langtianya 2022-07-28 15:48:03阅读:21
 • Hadoop 数据去重

   数据去重这个实例主要是为了读者掌握并利用并行化思想对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapRe...

  zhwl 2022-07-28 15:48:01阅读:18
 • Hadoop 排序

   数据排序是许多实际任务在执行时要完成的第一项工作,比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基础。 1.实例描述  对...

  jyk 2022-07-28 15:47:59阅读:16
 • Hadoop 单表关联

   前面的实例都是在数据上进行一些简单的处理,为进一步的操作打基础。单表关联这个实例要求从给出的数据中寻找到所关心的数据,它是对原始数据所包含信息的挖掘。下面进入这个实例。 1.实例描述  ...

  zlslch 2022-07-28 15:47:55阅读:15
 • Hadoop 多表关联

  一、实例描述  多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。下面进入这个实例。  输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代...

  zhwl 2022-07-28 15:47:52阅读:19
 • Hadoop 电话通信清单

  一、实例要求  现有一批电话通信清单,记录了用户A拨打某些特殊号码(如120,10086,13800138000等)的记录。需要做一个统计结果,记录拨打给用户B的所有用户A。 二、测试样例...

  dyllove98 2022-07-28 15:47:50阅读:18
 • Hadoop 倒排索引

   倒排索引是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据...

  cyq1162 2022-07-28 15:47:48阅读:22
 • Hadoop Partition函数应用(归档)

  一、实例描述  在这个实例里我们使用简单的数据集,里面包含多条数据,每条数据由姓名、年龄、性别和成绩组成。实例要求是按照如下规则归档用户。  1.找出年龄小于20岁中男生和女生的最大分数 ...

  dudu 2022-07-28 15:47:46阅读:20
 • Hadoop2.0伪分布式平台环境搭建

  一、搭建环境的前提条件  环境:ubuntu-16.04   hadoop-2.6.0      jdk1.8.0_161。这里的环境不一定需要和我一样,基本...

  哈哈 2022-07-28 15:47:41阅读:14