Hadloop:在分布式环境下提供海量数据的处理能力 -配置啦-研发运维人员必备网站

凡未购买过小册的用户，均可领取三张 5 折新人专享券，购买小册时自动使用专享券，最高可节省 45 元。

小册新人 5 折券

最高可省 15 元

小册新人 5 折券

最高可省 15 元

小册新人 5 折券

最高可省 15 元

注：专享券的使用期限在领券的七天内。

一键领取

-- Hadloop:在分布式环境下提供海量数据的处理能力
【官网】：#

应用场景

hadoop擅长日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中的自定义筛选也使用的Hive；利用Pig还可以做高级的数据处理，包括Twitter、LinkedIn 上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。（2012年8月25新更新，天猫的推荐系统是

基础资源

VitualVox,rhel-server-6.3-i386-dvd.iso,jdk-6u24-linux-xxx.bin,hadoop-1.1.2.tar.gz

使用须知

请检查自己的服务器配置和应用场景. Hadloop的特点：易扩容(多节点)，可靠性(有副本), 高效性(并行计算), 低成本(普通机器组集群)

配置步骤

[核心项目:HDFS与Map Reduce]

HDFS:hadloop Distrisbuted File System(Hadloop分布式文件系统)

主节点（namenode)：只有一个，负责接收用户请求，管理文件系统目录

构，维护（block-文件-datanode)的关系.

从节点（Datanode）: 有多个,文件切分成block存储，有多个副本.

-------------------------------------------------------------

HDFS的shell操作：

HDFS的java API：

RPC调用：

: 并行计算框架

主节点(JobTracker): 只有一个，接收用户请求，分配任务给TaskTracker,并监控任务执行情况。

从节点(TaskTracker): 有多个，执行JobTracker分配下来的任务.

[单点物理结构]

[安装的文件]

注：仅供参考，已不是最新版本.

VitualVox

rhel-server-6.3-i386-dvd.iso

jdk-6u24-linux-xxx.bin

hadoop-1.1.2.tar.gz

[安装过程]

关闭防火墙

修改ip

修改hostname

设置ssh自动登录

安装jdk

安装hadoop

1.hadoop-env.sh

export JAVA_HOME=/usr/local/jdk/

2.core-site.xml

fs.default.name

hdfs://hadoop0:9000

change your own hostname

hadoop.tmp.dir

/usr/local/hadoop/tmp

3.hdfs-site.xml

dfs.replication

dfs.permissions

false

4.mapred-site.xml

mapred.job.tracker

hadoop0:9001

change your own hostname

启动hadoop

再执行start-all.sh

浏览hadoop

[日常维护问题]

1. )如何运行jar包中的hadoop程序.

【Hbase与hive】

hive是类sql的查询引擎（帮助运行MapReduce任务），不支持更新，适用离线数据的查询分析..

Hbase是基于列的分布式数据库（非关系型）,用于实时运算..速度非常快.

https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

HADOOP_HOME D:\Install\hadloop\hadoop-2.7.3

系统变量的path:

常见问题

快速入门

参考配置

参考资料

vmware+centos+hadloop

登录

注册

Hadloop大数据处理平台-非实时大数据处理

应用场景

基础资源

使用须知