本课程《体系课-大数据工程师》是专为希望深入学习大数据技术栈的学员精心设计的,涵盖从Linux基础到Hadoop、Spark、Flink等大数据处理框架,再到企业级数据仓库、实时数据处理、全文检索以及数据中台建设的全面知识。课程分为五个阶段,第一阶段带领学员走进大数据,掌握Linux操作系统及Hadoop基础;第二阶段深入探讨PB级数据的计算、存储方案,包括Flume、Hive、HBase的应用;第三阶段聚焦Spark技术及其在电商数据仓库中的实战应用;第四阶段讲解实时数据处理与全文检索技术,如Kafka、Redis、Flink和Elasticsearch;第五阶段通过综合项目,如三度关系推荐系统和数据中台的构建,帮助学员将所学知识应用于实际场景,提升解决复杂业务问题的能力。课程结合理论与实践,旨在培养具备全面技能的大数据工程师。
课程目录
├──{1}–阶段一:走进大数据
| ├──{1}–学好大数据先攻克Linux
| | ├──{1}–第1章笑傲大数据成长体系课【必看】
| | ├──{2}–第2章Linux虚拟机安装配置
| | ├──{3}–第3章Linux极速上手
| | ├──{4}–第4章Linux试炼之配置与shell实战
| | └──{5}–第5章Linux总结与走进大数据
| ├──{2}–大数据起源之初识Hadoop
| | ├──{1}–第1章初识Hadoop
| | └──{2}–第2章Hadoop的两种安装方式
| ├──{3}–Hadoop之HDFS的使用
| | ├──{1}–第1章HDFS介绍
| | ├──{2}–第2章HDFS基础操作
| | └──{3}–第3章Java操作HDFS
| ├──{4}–Hadoop之HDFS核心进程剖析
| | ├──{1}–第1章初识NameNode
| | ├──{2}–第2章NameNode进阶
| | ├──{3}–第3章HDFS高级
| | └──{4}–第4章【扩展内容】HDFS写数据源码剖析
| └──{5}–Hadoop之初识MR
| | ├──{1}–第1章初识MapReduce
| | ├──{2}–第2章实战:WordCount
| | ├──{3}–第3章深入MapReduce
| | └──{4}–第4章精讲Shuffle执行过程及源码分析输入输出
├──{2}–阶段二:PB级离线数据计算分析存储方案
| ├──{1}–拿来就用的企业级解决方案
| | ├──{1}–第1章剖析小文件问题与企业级解决方案
| | ├──{2}–第2章剖析数据倾斜问题与企业级解决方案
| | ├──{3}–第3章YARN实战
| | ├──{4}–第4章Hadoop官方文档使用指北【授人以鱼不如授人以渔】
| | ├──{5}–第5章Hadoop核心复盘
| | └──{6}–第6章【福利加油站】
| ├──{2}–Flume从0到高手一站式养成记
| | ├──{1}–第1章极速入门Flume
| | ├──{2}–第2章极速上手Flume使用
| | ├──{3}–第3章精讲Flume高级组件
| | ├──{4}–第4章Flume出神入化篇
| | └──{5}–第5章Flume核心复盘
| ├──{3}–数据仓库Hive从入门到小牛
| | ├──{1}–第1章快速了解Hive
| | ├──{2}–第2章数据库与数据仓库区别
| | ├──{3}–第3章Hive基础使用
| | ├──{4}–第4章Hive核心实战
| | ├──{5}–第5章Hive高级函数实战
| | └──{6}–第6章Hive技巧与核心复盘
| ├──{4}–Hive扩展内容
| | ├──{1}–第1章常见数据压缩格式的使用
| | └──{2}–第2章常见数据存储格式的使用
| └──{5}–快速上手NoSQL数据库HBase
| | ├──{1}–第1章快速了解HBase
| | ├──{2}–第2章快速上手使用HBase
| | ├──{3}–第3章深入HBase架构原理
| | ├──{4}–第4章HBase高级用法
| | └──{5}–第5章HBase调优策略和扩展内容
├──{3}–阶段三:Spark+综合项目:电商数据仓库设计与实战
| ├──{1}–7天极速掌握Scala语言
| | ├──{1}–第1章Scala极速入门
| | ├──{2}–第2章Scala基础语法
| | ├──{3}–第3章Scala面向对象
| | ├──{4}–第4章Scala函数式编程
| | ├──{5}–第5章Scala高级特性
| | └──{6}–第6章Scala核心复盘
| ├──{2}–Spark快速上手
| | ├──{1}–第1章初识Spark
| | ├──{2}–第2章解读Spark工作与架构原理
| | ├──{3}–第3章Spark实战:单词统计
| | ├──{4}–第4章Transformation与Action开发实战
| | ├──{5}–第5章RDD持久化
| | ├──{6}–第6章TopN主播统计
| | └──{7}–第7章面试与核心复盘
| ├──{3}–Spark性能优化的道与术
| | ├──{1}–第1章Spark三种任务提交模式
| | ├──{2}–第2章Shuffle机制分析
| | ├──{3}–第3章Spark之checkpoint
| | ├──{4}–第4章Spark程序性能优化企业级最佳实践
| | ├──{5}–第5章Spark性能优化之算子优化
| | ├──{6}–第6章极速上手SparkSql
| | └──{7}–第7章Spark实战与核心复盘
| ├──{4}–Spark3.x扩展内容
| | ├──{1}–第1章快速上手使用Spark3.x
| | ├──{2}–第2章Spark3.x版本中新特性的原理及应用
| | └──{3}–第3章SparkSQL集成Hive
| ├──{5}–综合项目:电商数据仓库之用户行为数仓
| | ├──{1}–第1章电商数据仓库效果展示
| | ├──{2}–第2章数据仓库前置技术
| | ├──{3}–第3章电商数仓技术选型
| | ├──{4}–第4章数据生成与采集
| | ├──{5}–第5章用户行为数仓设计与实现
| | └──{6}–第6章项目核心复盘
| └──{6}–综合项目:电商数据仓库之商品订单数仓
| | ├──{1}–第1章商品订单数仓需求分析
| | ├──{2}–第2章需求设计与实现
| | ├──{3}–第3章订单拉链表实战
| | ├──{4}–第4章数据可视化和任务调度实现
| | ├──{5}–第5章项目核心复盘
| | └──{6}–第6章数据压缩格式和存储格式在数仓中的应用
├──{4}–阶段四:高频实时数据处理+海量数据全文检索方案
| ├──{1}–消息队列之Kafka从入门到小牛
| | ├──{1}–第1章初识Kafka
| | ├──{2}–第2章Kafka集群安装部署
| | ├──{3}–第3章Kafka使用初体验
| | ├──{4}–第4章Kafka核心扩展内容
| | ├──{5}–第5章Kafka核心之存储和容错机制
| | ├──{6}–第6章Kafka生产消费者实战
| | ├──{7}–第7章Kafka技巧篇
| | ├──{8}–第8章Kafka小试牛刀实战篇
| | └──{9}–第9章Kafka核心复盘
| ├──{2}–极速上手内存数据库Redis
| | ├──{1}–第1章快速了解Redis
| | ├──{2}–第2章Redis核心实践
| | ├──{3}–第3章Redis封装工具类技巧
| | ├──{4}–第4章Redis高级特性
| | └──{5}–第5章Redis核心复盘
| ├──{3}–Flink快速上手篇
| | ├──{1}–第1章初识Flink
| | ├──{2}–第2章实战:流处理和批处理程序开发
| | ├──{3}–第3章Flink集群安装部署
| | ├──{4}–第4章Flink核心API之DataStreamAPI
| | ├──{5}–第5章Flink核心API之DataSetAPI
| | ├──{6}–第6章Flink核心API之TableAPI和SQL
| | └──{7}–第7章Flink核心复盘
| ├──{4}–Flink高级进阶之路
| | ├──{1}–第1章Flink中的Window和Time详解
| | ├──{2}–第2章Flink中的Watermark深入剖析
| | ├──{3}–第3章Flink中的并行度详解
| | ├──{4}–第4章Flink之KafkaConnector专题
| | ├──{5}–第5章SparkStreaming快速上手
| | ├──{6}–第6章Flink核心复盘
| | └──{7}–第7章【福利加油站】
| ├──{5}–Flink1.15新特性及状态的使用
| | ├──{2}–第2章快速上手使用Flink1.15
| | └──{3}–第3章State(状态)的使用与管理
| ├──{6}–Flink1.15之状态的容错与一致性
| | ├──{1}–第1章State(状态)的容错与一致性
| | ├──{2}–第2章Checkpoint与State底层原理深度剖析
| | └──{3}–第3章Kafka-connector新API的使用
| ├──{7}–全文检索引擎Elasticsearch
| | ├──{1}–第1章快速了解Elasticsearch
| | ├──{2}–第2章快速上手使用Elasticsearch
| | ├──{3}–第3章Elasticsearch分词详解
| | ├──{4}–第4章Elasticsearch查询详解
| | └──{5}–第5章Elasticsearch的高级特性
| └──{8}–Es+HBase仿百度搜索引擎项目
| | ├──{1}–第1章企业中快速复杂查询痛点分析
| | ├──{2}–第2章仿百度搜索引擎项目架构设计
| | ├──{3}–第3章ES高级特性扩展
| | └──{4}–第4章开发仿百度搜索引擎项目
└──{5}–阶段五:综合项目:三度关系推荐系统+数据中台
| ├──{1}–直播平台三度关系推荐V1.0
| | ├──{1}–第1章项目介绍及演示
| | ├──{2}–第2章项目技术选型
| | ├──{3}–第3章Neo4j图数据库快速上手使用
| | ├──{4}–第4章数据采集模块分析
| | ├──{5}–第5章数据采集+聚合+分发+落盘
| | ├──{6}–第6章数据计算核心指标分析
| | ├──{7}–第7章数据核心指标计算
| | └──{8}–第8章项目核心复盘
| ├──{2}–直播平台三度关系推荐V2.0
| | ├──{1}–第1章V1.0架构方案分析及V2.0架构设计
| | ├──{2}–第2章V2.0架构之数据核心指标计算
| | ├──{3}–第3章数据接口定义及开发
| | ├──{4}–第4章数据展示
| | ├──{5}–第5章项目扩展优化
| | └──{6}–第6章项目核心复盘
| └──{3}–数据中台大屏
| | ├──{1}–第1章数据中台的前世今生
| | ├──{2}–第2章数据中台架构
| | ├──{3}–第3章什么样的企业适合建设数据中台
| | ├──{4}–第4章数据中台企业级解决方案
| | ├──{5}–第5章项目总结
| | ├──{6}–第6章数据中台之数据加工总线
| | ├──{7}–第7章数据加工总线之SparkSQL计算引擎开发
| | ├──{8}–第8章数据加工总线之FlinkSQL计算引擎开发
| | └──{9}–第9章后期展望