Hadloop大数据处理平台-非实时大数据处理

-- Hadloop:在分布式环境下提供海量数据的处理能力
【官网】:#

应用场景

hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是

基础资源

VitualVox,rhel-server-6.3-i386-dvd.iso,jdk-6u24-linux-xxx.bin,hadoop-1.1.2.tar.gz

使用须知

请检查自己的服务器配置和应用场景. Hadloop的特点:易扩容(多节点),可靠性(有副本), 高效性(并行计算), 低成本(普通机器组集群)

配置步骤

[核心项目:HDFSMap Reduce]

HDFS:hadloop Distrisbuted File System(Hadloop分布式文件系统)

主节点(namenode):只有一个 ,负责接收用户请求,管理文件系统目录

构,维护(block-文件-datanode)的关系.

从节点(Datanode: 有多个,文件切分成block存储,有多个副本.

-------------------------------------------------------------

HDFSshell操作:

HDFSjava API

RPC调用:

: 并行计算框架

主节点(JobTracker): 只有一个,接收用户请求,分配任务给TaskTracker,并监控任务执行情况。

从节点(TaskTracker): 有多个,执行JobTracker分配下来的任务.

[单点物理结构]

[安装的文件]

注:仅供参考,已不是最新版本.


VitualVox

rhel-server-6.3-i386-dvd.iso

jdk-6u24-linux-xxx.bin

hadoop-1.1.2.tar.gz

[安装过程]

关闭防火墙

修改ip

修改hostname

设置ssh自动登录

安装jdk

安装hadoop


1.hadoop-env.sh

export JAVA_HOME=/usr/local/jdk/


2.core-site.xml



fs.default.name

hdfs://hadoop0:9000

change your own hostname

hadoop.tmp.dir

/usr/local/hadoop/tmp

3.hdfs-site.xml

dfs.replication

dfs.permissions

false

4.mapred-site.xml

mapred.job.tracker

hadoop0:9001

change your own hostname

启动hadoop

再执行start-all.sh

浏览hadoop

[日常维护问题]

1. )如何运行jar包中的hadoop程序.

Hbasehive】

hive是类sql的查询引擎(帮助运行MapReduce任务),不支持更新,适用离线数据的查询分析..

Hbase是基于列的分布式数据库(非关系型),用于实时运算..速度非常快.


https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

HADOOP_HOME      D:\Install\hadloop\hadoop-2.7.3

系统变量的path:



常见问题

快速入门

参考配置

参考资料