本课程采用理论讲解与实战操作相结合的教学模式,重点培养学员在分布式系统架构设计、海量数据处理、实时计算等领域的实战能力。
技术方向 | 核心组件 | 实战项目 |
---|---|---|
分布式存储 | HDFS/HBase | 电商日志存储系统 |
计算框架 | MapReduce/Spark | 用户行为分析系统 |
课程覆盖大数据生态核心组件,从Hadoop分布式存储到Flink实时处理引擎,构建完整的技术知识网络:
完成Linux集群环境配置,部署Hadoop伪分布式与完全分布式集群,掌握Zookeeper服务协调机制。
通过MapReduce实现TB级日志分析,使用Hive构建数据仓库,完成Spark SQL交互式查询开发。
课程设计遵循从基础架构到高级应用的递进式学习路线:
基于Hive构建用户标签体系,通过Spark MLlib实现行为预测模型。
采用Flink处理Kafka数据流,实现毫秒级异常检测与告警。