Hadoop集群(第9期)_MapReduce初级案例

1、数据去重 数据去重 主要是为了掌握和利用 并行化思想 来对数据进行 有意义 的 筛选 。 统计大数据集上的数据种类个数 、 从网站日志中计算访问地 等这些看似庞杂的任务都会涉及...

Hadoop集群(第8期)_HDFS初探之旅

1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于 流数据模式 访问和处理 超大文件 的需求而开发的,可以运行于廉价...

Hadoop集群(第6期)_WordCount运行详解

1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得...

Hadoop集群(第7期)_Eclipse开发环境设置

1、Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk- 6u31 -linux-i586.bin Linux系统:CentOS6.0 Hadoop版本: hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk- 6u31 -windows-i586.exe Win系统:Windows 7 旗舰...

Hadoop集群(第5期副刊)_JDK和SSH无密码配置

1、Linux配置java环境变量 1.1 原文出处 地址: http://blog.csdn.net/jiedushi/article/details/6672894 1.2 解压安装jdk 在shell终端下进入jdk-6u14-linux-i586.bin文件所在目录,执行命令 ./jdk-6u14-linux-i586.bin 这...

Hadoop集群(第5期)_Hadoop安装配置

1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为 核...

Hadoop集群(第4期)_SecureCRT使用

1、SecureCRT简介 SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,同时支持Telnet和rlogin协议。SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的远程系统的理想工具。通过使用内含的...

Hadoop集群(第3期)_VSFTP安装配置

1、VSFTP简介 VSFTP 是一个基于GPL发布的类Unix系统上使用的 FTP服务器 软件,它的全称是Very Secure FTP 从此名称可以看出来,编制者的初衷是代码的安全。 安全性是编写VSFTP的初衷,除了这...

Hadoop集群(第2期)_机器信息分布表

1、分布式环境搭建 采用4台安装Linux环境的机器来构建一个小规模的分布式集群。 图1 集群的架构 其中有一台机器是Master节点,即名称节点,另外三台是Slaver节点,即数据节点。这四台...

Hadoop集群(第1期)_CentOS安装配置

1、准备安装 1.1 系统简介 CentOS 是什么? CentOS 是一个基于 Red Hat 企业级 Linux 提供的可自由使用的 源代码企业级 的 Linux 发行版本。 每个版本 的 CentOS 都会获得 七年 的 支持 (通过安全...

还不懂Hadoop分布式文件系统HDFS的工作原理?

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。它能提供高吞吐量的数据访问,非常适合大...

Hadoop HDFS如何配置

摘要: 环境: Jdk1.6 Hadoop-2.20.1 Fuse-2.8.1 Jdk1.6下载地址 http://cds.sun.com/is-bin/INTERSHOP.enfinity/WFS/CDS-CDS_Developer-Site/en_US/-/USD/VerifyItem-Start/jdk-6u14-linux-i586.binBundledLineItemUUID=.1JIBe.mR4oAAAEh1jkH4cNKOrd...