获取内容资料
大数据AI

大数据慕课网日志分析

本章使用Spark SQL对慕课网主站的访问日志进行各个维度的统计分析操作,涉及到的过程有:数据清洗、数据统计、统计结果入库、数据的可视化、调优及Spark on YARN。通过本实战项目将Spark SQL中的知识点融会贯通,达到举一反三的效果。

Spark SQLSpark SQL是Spark用来处理结构化数据的包。它使得可以像Hive查询语言(Hive Query Language, HQL)一样通过SQL语句来查询数据,支持多种数据源,包括Hive表、Parquet和JSON。除了为Spark提供一个SQL接口外,Spark SQL允许开发人员将SQL查询和由RDDs通过Python、Java和Scala支持的数据编程操作混合进一个单一的应用中,进而将SQL与复杂的分析结合。与计算密集型环境紧密集成使得Spark SQL不同于任何其他开源的数据仓库工具。Spark SQL在Spark 1.0版本中引入Spark。

大数据慕课网日志分析

本课程可以帮助学员掌握如何收集用户访问日志,如何对访问日志进行分析,如何利用大数据计算服务对数据进行处理,如何以图表化的形式展示分析后的数据。

大数据书籍(这里的就是基本大数据教程,为:《Hadoop大数据技术原理与应用》《Spark大数据分析与实战》《数据清洗》《大数据项目实战》《NoSQL数据库技术与应用》):

以上五个实战项目日志分析、路由数据监控、用户画像、数据挖掘、日志监控告警等等都是中大型互联网企业非常关注的技术知识点。相应的人才需求也是非常的大。包括云计算大数据实际的课程内容,实战项目与真实企业的需求越切近,学员相应的就业薪资以及就业机会都会大幅度提高。如果你对实战技能更加关注,可以更多的关注博学谷平台的云计算大数据在线就业班课程。

Similar Posts

发表评论

邮箱地址不会被公开。 必填项已用*标注