大数据AI

黑马云计算大数据课程大纲

从前面的学习,对于大数据平台,你已经掌握的不少的知识和技能,搭建Hadoop集群,把数据采集到Hadoop上,使用Hive和MapReduce来分析数据,把分析结果同步到其他数据源。

从上面的学习,你已经了解到,HDFS是Hadoop提供的分布式存储框架,它可以用来存储海量数据,MapReduce是Hadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据,而Hive则是SQL On Hadoop,Hive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行。 此时,你的”大数据平台”是这样的:

黑马云计算大数据课程大纲

在企业中,离线数据的来源主要是已存在的有固定格式的文件,或数据库中积累的结构化的数据,如何高效的进行数据的管理以及基本的统计分析是每个大数据开发者必须掌握的技能,本教程在Hadoop集群的基础上,系统的讲述了Hive的作用,安装部署过程,常用的内置函数,UDF的引入方式,数据导入导出的相关组件等,并结合一些企业的场景进行了说明。

有从事分布式数据存储与计算平台应用开发经验,熟悉Hadoop生态相关技术并有相关实践经验着优先,重点考察Hdfs、Mapreduce、Hive、Hbase。

个总结,Hive和HBase都是Hadoop集群下的工具,Hive是对MapReduce的优化,而HBase则是HDFS数据存储的大管家。那么,这两者各适用于哪些场景呢?。

Similar Posts

发表评论

邮箱地址不会被公开。 必填项已用*标注