Hadoop学习入门介绍
1、首先我们来了解一下Haddop的生态圈,Hadoop项目主要包括以下几个模块:HDFS是一个高可靠、高吞吐量的分布式文件系统;MapReduce是一个分布式的离线并行计算框架;Hadoop YARN是一个新的MapReduce框架,任务调度与资源管理;Pig 轻量级的语言,可以将命令转换为MapReduce程序;Hive 相当于SQL到MapReduce的映射器;HBase Nosql数据库 非关系型的列式数据库,其他的就不再一一介绍了,读者可自行了解。

3、JobTracker主要用于处理作业(用户提交代码)的后台程序,决定有哪些文件参与处理,然后切割task并分配节点,同时监控t锾攒揉敫ask并且重启失败的task(于不同的节点上)。,每一个集群只有唯一一个JobTracker,位于Master节点上。TaskTracker(任务跟踪器)位于slave节点上,与dataNode结合(代码与数据一起的原则),管理各自节点上的task(由jobtracker分配),每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务,TaskTracker可以与JobTracker交互。

5、Hadoop的具体安装我们不介绍,下面介绍一下Hadoop中配置相关的文件,如下图所示。需要注意的是我们在core-site.xml中配置NameNode的IP地址和端口号(fs.default.name)为hdfs://master:9000,我们修改mapred-site.xml文件配置作业跟踪器的位置(mapred.job.tracker):localhost:9001。

7、我们可以通过web来了解Hadoop的活动,通过浏览器和http访问jobtracker所在节点的50030端口监控jobtracker,通过浏览器和http访问namenode所在节点的50070端口监控集群,并在/logs目录下查看日志信息。Hadoop官网上有一些技术文档,如下图所示。
