大数据技术学习路线指南:[4]Hadoop是什么

2025-05-19 03:13:01

Hadoop作为大数据工业中的主引擎,了解Hadoop就像是在打开大数据这扇门。首先它本身是一个分布式计算架构,更重要的是它是一邗锒凳审个可扩展的生态系统,像IBM,EMC,Amazon,微软,甲骨文等大型IT公司都已经有了基于Hadoop的商业化大数据产品。虽然现在还有比Hadoop更为先进的分布式架构(Dremel,DataFlow等),但也都是基于Hadoop的改进升级,因此也说Hadoop是大数据的基础,基础的稳固决定了未来能走多远!!

大数据技术学习路线指南:[4]Hadoop是什么大数据技术学习路线指南:[4]Hadoop是什么

3、MapReduce(并行计算架构):它可以将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果。其中 包含映射算法与规约算法。如图是MapReduce的内部计算步骤

大数据技术学习路线指南:[4]Hadoop是什么

5、HBase/Sqoop/Flume(数据导入与导出犬匮渝扮):HBase是运行在HDFS架构上的列存储数据库,并且已经与Pi爿讥旌护g/Hive很好地集成。通过Java API可以近无缝地使用HBase。Sqoop设计的目的是方便从传统数据库导入数据到Hadoop数据集合(HDFS/Hive)。Flume设计的目的是便捷地从日志文件系统直接把数据导到Hadoop数据集合(HDFS)中。以上这些数据转移工具都极大的方便了使用的人,提高了工作效率,把经历专注在业务分析上!

大数据技术学习路线指南:[4]Hadoop是什么

2、补充书籍资料:Hadoop Operations/Professional Hadoop Solutions/Programing Pig/ProgramingHive/Data Science for Business

3、专业论文:谷歌关于大数据基础的一些重要论文(GFS / MapReduce)

大数据技术学习路线指南:[4]Hadoop是什么
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢