拉勾教育范东来讲师：即学即用的Spark实战44讲

提供拉勾教育范东来讲师：即学即用的Spark实战44讲高清无密网盘下载，原价98，掌握大数据必备技术，挑战高薪职位，如今，数据的重要已无需多言，互联网企业对于数据的利用效率，很大程度的决定了企业竞争力，而数据处理技术很大程度上就决定了数据的利用效率。

因为数据很重要，所以做数据处理的人薪资也贵，毕竟市场决定价格。在拉勾网上，同一公司提供的岗位里，同等资历的开发工程师和大数据工程师，月薪可能相差20k。可以预见的是随着物联网、5G的普及，大数据人才只会越来越抢手。

专栏解读

本专栏分为 7 个模块，除了 Spark 基础知识，还涵盖了当下流行的流处理、图挖掘、机器学习等内容。

除了前2个模块，后面的每个模块都将以理论与实践并重的讲述方式，突出 Spark 用于主流业务场景的必学内容，简洁实用，注重实践，降低学习门槛，让你学了就能用。

专栏最后将以一个完整实战项目结尾，带你用 Spark 完整体验一个商业智能系统的开发流程，串联和巩固所学知识。

7个模块针对不同类型读者，侧重点各有不同，然而不论你是数据工程师、数据架构师，还是数据分析师、数据爱好者，都可以从中得到自己所需。

范东来讲师简介

范东来

Spark Contributor 和 Superset Contributor

曾任知名大数据公司技术负责人、架构师，负责搭建整个公司的大数据架构和平台，主导和参与过国内诸多金融机构大数据项目与平台实施，具有丰富的大数据技术经验。此外，他还是《Spark 海量数据处理》与《Hadoop 海量数据处理》图书作者。

适合谁学

如果你：

想成为大数据工程师，需要根据业务需求开发离线计算的批处理应用，还有实时计算的流处理应用；

想成为大数据架构师，Spark 生态可以很好地满足公司不同层次的数据处理需求，如离线计算、实时处理、数据挖掘等；

是一名数据分析师，想用 Spark 提升工作效率；

是一名数据分析爱好者， Spark 对 SQL 支持很好，也可以尝试。

大数据时代的风口近在眼前，掌握 Spark 就能快人一步，希望你不要错过这个机会。

课程大纲

章节目录

开篇词

开篇词：学了就能用的 Spark？

模块一：基础预习

第01讲： MapReduce：计算框架和编程模型

第02讲：Hadoop：集群的操作系统

第03讲：如何设计与实现统一资源管理与调度系统

第04讲：解析 Spark 数据处理与分析场景

第05讲：如何选择 Spark 编程语言以及部署 Spark

模块二：Spark 编程

第06讲：Spark 抽象、架构与运行环境

第07讲：Spark 核心数据结构：弹性分布式数据集 RDD

第08讲：算子：如何构建你的数据管道？

第09讲：函数式编程思想：你用什么声明，你在声明什么？

第10讲：共享变量：如何在数据管道中使用中间结果？

第11讲：计算框架的分布式实现：剖析 Spark Shuffle 原理

模块三：Spark 高级编程

第12讲：如何处理结构化数据：DataFrame 、Dataset和Spark SQL

第13讲：如何使用用户自定义函数？

第14讲：列式存储：针对查询场景的极致优化

第15讲：如何对 Spark 进行全方位性能调优？

第16讲：Tungsten 和 Hydrogen：Spark 性能提升与优化计划

第17讲：实战：探索葡萄牙银行电话调查的结果

模块四：Spark 流处理

第18讲：流处理：什么是流处理？以及你必须考虑的消息送达保证问题

第19讲：批处理还是流处理：Spark Streaming 抽象、架构与使用方法

第20讲：如何在生产环境中使用 Spark Streaming

第21讲：统一批处理与流处理：Dataflow

第22讲：新一代流式计算框架：Structured Streaming

第23讲：如何对 Spark 流处理进行性能调优？

第24讲：实战：如何对股票交易实时价格进行分析？

模块五：Spark 图挖掘

第25讲：什么是图：图模式，图相关技术与使用场景

第26讲：数据并行：Spark 如何抽象图，如何切分图，如何处理图

第27讲：像顶点一样思考：大规模并行图挖掘引擎 GraphX

第28讲：Pregel 还是 MapReduce：一个有趣的算子 AggregateMessage

第29讲：实战 1：用 GraphX 实现 PageRank 算法

第30讲：实战 2：用 GraphX 求得顶点的 n 度邻居

模块六：Spark 机器学习

第31讲：机器学习是什么：机器学习与机器学习工作流

第32讲：标准化机器学习流程：ML pipeline

第33讲：如何对数据进行预处理？

第34讲：少数服从多数：随机森林分类器

第35讲：物以类聚：Kmeans 聚类算法

第36讲：推荐引擎：协同过滤

第37讲：如何对模型性能进行评估并调优？

模块七：商业智能系统实战

第38讲：数据仓库与商业智能系统架构剖析

第39讲：作为 Yelp 运营负责人，如何根据数据进行决策？

第40讲：如何获取业务数据库的数据

第41讲：如何构建数据立方体

第42讲：如何通过 OLAP 与报表呈现结果

第43讲：两个简化了的重要问题：数据更新和数据实时性

第44讲：另一种并行：Lambda 架构与 Kappa 架构

彩蛋

彩蛋：如何成为 Spark Contributor

结束语

结束语：统一的编程模型，统一的编程语言，统一的架构

拉勾教育范东来讲师：即学即用的Spark实战44讲视频教程课程百度云网盘下载

拉勾教育范东来讲师：即学即用的Spark实战44讲

Similar Posts

发表评论取消回复

Similar Posts

发表评论 取消回复

发表评论取消回复