课件代码:http://pan.baidu.com/s/1nvbkRSt 教学视频:http://pan.baidu.com/s/1c12XsIG 这是最近买的付费教程,对资料感兴趣的可以在下方留下邮件地址,我会定期进行密码发送。
以目前主流的,最新的spark稳定版2.1.x为基础,深入浅出地介绍Spark生态系统原理及应用,内容包括Spark各组件(Spark Core/SQL/Streaming/MLlib)基本原理,使用方法,实战经验以及在线演示。本课程精心设计了五个企业级应用案例,帮助大家在理解理论的基础上,亲手实践和应用spark。
第一部分: Spark 概述
第一课:Spark 2.1概述 Spark产生背景 包括mapreduce缺陷,多计算框架并存等 Spark 基本特点 Spark版本演化 Spark核心概念 包括RDD, transformation, action, cache等 Spark生态系统 包括Spark生态系统构成,以及与Hadoop生态系统关系 Spark在互联网公司中的地位与应用 介绍当前互联网公司的Spark应用案例 Spark集群搭建 包括测试集群搭建和生产环境中集群搭建方法,并亲手演示整个过程 背景知识补充介绍 a. Hadoop基础b. HDFS简介(特点、架构与应用)c. YARN简介(架构)d. MapReduce简介(编程模型与应用) I. Eclipse与Intellij IDEAII. Maven第二部分: Spark Core
第二课:Spark 程序设计与企业级应用案例 Spark运行模式介绍 Spark运行组件构成,spark运行模式(local、standalone、mesos/yarn等) Spark开发环境构建 集成开发环境选择,亲手演示spark程序开发与调试,spark运行 常见transformation与action用法 介绍常见transformation与action使用方法,以及代码片段剖析 常见控制函数介绍 包括cache、broadcast、accumulator等 Spark 应用案例:电影受众分析系统 包括:背景介绍,数据导入,数据分析,常见Spark transformation和action用法在线演示第三课:Spark 内部原理剖析与源码阅读 Spark运行模式剖析 深入分析spark运行模式,包括local,standalone以及spark on yarn Spark运行流程剖析 包括spark逻辑查询计划,物理查询计划以及分布式执行 Spark shuffle剖析 深入介绍spark shuffle的实现,主要介绍hash-based和sort-based两种实现 Spark 源码阅读 Spark源码构成以及阅读方法第四课:Spark 程序调优技巧 数据存储格式调优 数据存储格式选择,数据压缩算法选择等 资源调优 如何设置合理的executor、cpu和内存数目,YARN多租户调度器合理设置,启用YARN的标签调度策略等 程序参数调优 介绍常见的调优参数,包括避免不必要的文件分发,调整任务并发度,提高数据本地性,JVM参数调优,序列化等 程序实现调优 如何选择最合适的transformation与action函数 调优案例分享与演示 演示一个调优案例,如何将一个spark程序的性能逐步优化20倍以上。第三部分 Spark SQL 2.1
第五课:Spark SQL基本原理 Spark SQL是什么 Spark SQL基本原理 Spark Dataframe与DataSet Spark SQL与Spark Core的关系第六课:Spark SQL程序设计与企业级应用案例 Spark SQL程序设计 a. 如何访问MySQL、HDFS等数据源,如何处理parquet格式数据b. 常用的DSL语法有哪些,如何使用c. Spark SQL调优技巧 Spark SQL应用案例:篮球运动员评估系统 a. 背景介绍b. 数据导入c. 数据分析d. 结论第四部分 Spark Streaming
第七课:Spark Streaming、程序设计及应用案例 1.Spark Streaming基本原理 a. Spark Streaming是什么b. Spark Streaming基本原理c. Structured Streamingd. Spark Streaming 编程接口介绍e. Spark Streaming应用案例 Spark Streaming程序设计与企业级应用案例 a. 常见流式数据处理模式b. Spark Streaming与Kafka 交互c. Spark Streaming与Redis交互d. Spark Streaming部署与运行e. Spark Streaming企业级案例:用户行为实时分析系统第五部分 Spark MLlib
第八课: Spark MLlib及企业级案例 Spark MLlib简介 数据表示方式 MLlib中的聚类、分类和推荐算法 如何使用MLlib的算法 Spark MLLib企业级案例:信用卡欺诈检测系统第六部分Spark综合案例
第九课:简易电影推荐系统 背景介绍 什么是Lambda architecture 利用HDFS+Spark Core+MLlib+Redis构建批处理线 利用Kafka+Spark Streaming+Redis构建实时处理线 整合批处理和实时处理线 扩展介绍:Apache beam:统一编程模型及应用转载于:https://www.cnblogs.com/wangxin37/p/6737694.html
