-- Hadloop:在分布式环境下提供海量数据的处理能力
【官网】:#
应用场景
hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是基础资源
VitualVox,rhel-server-6.3-i386-dvd.iso,jdk-6u24-linux-xxx.bin,hadoop-1.1.2.tar.gz
使用须知
请检查自己的服务器配置和应用场景. Hadloop的特点:易扩容(多节点),可靠性(有副本), 高效性(并行计算), 低成本(普通机器组集群)
配置步骤
[核心项目:HDFS与Map Reduce]
HDFS:hadloop Distrisbuted File System(Hadloop分布式文件系统)
主节点(namenode):只有一个 ,负责接收用户请求,管理文件系统目录
构,维护(block-文件-datanode)的关系.
从节点(Datanode): 有多个,文件切分成block存储,有多个副本.
-------------------------------------------------------------
HDFS的shell操作:
HDFS的java API:
RPC调用:
: 并行计算框架
主节点(JobTracker): 只有一个,接收用户请求,分配任务给TaskTracker,并监控任务执行情况。
从节点(TaskTracker): 有多个,执行JobTracker分配下来的任务.
[单点物理结构]
[安装的文件]
注:仅供参考,已不是最新版本.
VitualVox
rhel-server-6.3-i386-dvd.iso
jdk-6u24-linux-xxx.bin
hadoop-1.1.2.tar.gz
[安装过程]
关闭防火墙
修改ip
修改hostname
设置ssh自动登录
安装jdk
安装hadoop
1.hadoop-env.sh
export JAVA_HOME=/usr/local/jdk/
2.core-site.xml
fs.default.name
hdfs://hadoop0:9000
change your own hostname
hadoop.tmp.dir
/usr/local/hadoop/tmp
3.hdfs-site.xml
dfs.replication
dfs.permissions
false
4.mapred-site.xml
mapred.job.tracker
hadoop0:9001
change your own hostname
启动hadoop
再执行start-all.sh
浏览hadoop
[日常维护问题]
1. )如何运行jar包中的hadoop程序.
【Hbase与hive】
hive是类sql的查询引擎(帮助运行MapReduce任务),不支持更新,适用离线数据的查询分析..
Hbase是基于列的分布式数据库(非关系型),用于实时运算..速度非常快.
https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
HADOOP_HOME D:\Install\hadloop\hadoop-2.7.3
系统变量的path:
常见问题
快速入门
参考配置