北大青鸟课工场
北大青鸟课工场 全国统一咨询热线:400-855-0986

大数据开发工程师
岗位:53081个

月薪:20-30k

大数据结构师
岗位:47805个

月薪:15-20k

Hadoop开发工程师
岗位:430211个

月薪:10-20k
牛人和怂人的区别  仅在于他们敢重新开始

1、年满21周岁,大专及以上学历,具备基本的计算机操作能力,基本的英语阅读能力
2、零基础,有志于从事高薪行业

培养目标:具备高端、多方位、专业水平的大数据软件开发人才

我们不说大话  只做实事--实力干货  才是我们的核心竞争力
核心实战课  不怕对比  就怕你不比

大数据开发:第一阶段 【Hadoop生态环境的大数据基础、实战与企业应用】

大数据环境搭建-最新Hadoop3.0大数据集群环境
本阶段讲授Hadoop大数据企业应用框架,开发环境包含CentOS、ambari、cdh、em等。
Hadoop授课环境版本:hadoop2.6.4版本;
Hadoop简介:Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)并且设计用来部署在低廉(low-cost)硬件上:它提供高吞吐量(high throughput)来访问应用程序的数据,适合有着超大数据集的应用程序。Hadoop已经有超过10年的历史了,主要提供HDFS存储、MR2离线编程模型、YARN资源调度与其他大数据平台集成;
Maven工具:apache-maven-3.2.5-bin.tar;
企业级大数据技术应用与Hadoop生态与环境部署
1.企业大数据应用: A.什么是大数据; B.大数据的企业应用; C.大数据发展前景; D.D.大数据就业前景;
2.Hadoop大数据技术框架: A.基于Hadoop大数据技术原理:分布式存储、分布式计算; B.Hadoop生态圈产品:【Ambari】【Avro】【Hbase】【Hive】【Spark】; C.Hadoop各个版本介绍:【Apache】【CDH】【HortonWorks】【MapR】;
3.Hadoop核心: A.Hadoop Common; B.HDFS: 【namenode】【datanode】; C.Hadoop Yarn:【ResourceManager】【NodeManager】 D.Hadoop Mapreduce;
4.Hadoop单节点安装 A. Linux环境搭建:【VMWare安装】 【CentOS 6.5安装】【VM虚拟网卡设置:Bridged、NAT、Host only】 B.Hadoop的点击安装与配置:安装准备:【防火墙设置】【主机名设置】【SSH免密码登陆设置】【远程客户端连接工具Xshell、Xftp使用】【JDK安装】 安装部署:【Hadoop配置】【Hadoop验证】
Hadoop Hdfs基本操作和基本体系构架介绍
1. Hdfs shell操作;
2. Hdfs体系结构:【NameNode】【DataNode】;
3. Hdfs Java APl;
4. Hdfs通信核心之RPC;
Hdfs之HA(高可用集群):【Hdfs的单点故障和高可用性】;
大数据环境搭建- ZooKeeper大数据监控管理
集群系统环境
Hadoop集群安装
1.ZooKeeper(ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务)
2.ZooKeeper角色:【Leader】【Learner】【Client】;
3.ZooKeeper数据模型和节点;
4.ZooKeeper集群搭建:【单机模式】【分布式模式-企业级2N+1】(创建个数2N+1);
5.操作ZooKeeper:【shell操作】-CRUD操作 【Java APl操作】-【使用Java进行实现】;
6.Hadoop HA集群搭建练习:【集群规划】-三个节点【集群规划】-七个节点:【安装启动】
【HA集群检测】-分别对双NameNode和双ResourceManager的状态active和standby进行检测;
MapReduce数据处理
1.MapReduce入门:【MaRreduce基本原理】【MapReduce执行流程】【MapReduce基本过程Shuffle】
【MapReduce实现案例WordCount分析】
【MapReduce项目练习】
MapReduce核心编程:【缓存小文件】【使用第三方jar包】【分区编程】【最值求解】【二次排序】【分组编程】【多目录输入输出】【结果写入MySQL数据库】【Reducer端join】【多表关联】【Uber模式】【压缩】【使用snappy压缩】【TopN】
Sqoop Flume
我们不生产数据,我们只是大数据的搬运工!
1.Sqoop:【Sqoop介绍,包括Sqoop1和 Sqoop2】【Sqoop体系结构】【Sqoop的配置安装】 【Sqoop的基本使用】-lmport:导入HDFS(基本导入与SQL导入 )(命令参数) -Export:导出MySQL(导入设计到的问题) (中文乱码、分隔符、插入、更新)
2. Flume1.6.0:【Flume体系架构】【Flume配置安装】【Flume案例】【使用telnet演示】【Flume组件】 案例:【监听一个文件新增一行数据】【监听一个目录新增一个文件】【将数据从MySQL导入Hdfs】
Hive是基于Hadoop的数据仓库平台
Hive2.1.0
1. Hive介绍: 【数据仓库框架】【SQL的解析引擎】【DW与DB的区别】【体系结构】【数据存储】【Metastore】【Hive安装】【Linux安装MySQL】【Hive的部署】;【Hive的运行及访问方式 (包括hwi)】
2. Hive基本SQL操作:
A.数据类型:【array】【map】【struct】 B.Hive表的分类:【受控表】【外部表】【分区表】【桶表】 C.Hive中的Join讲解: 3. Hive的导入导出简单总结
导入:【文件中装在load】【从其他A.表中装在】【动态分区】【创建表中的转载】【数据多处理from】【使用lmpor导入备份表】【从Sqoop导入MySQL到Hive】
B.导出:【insert Overwrite】【export备份】【Sqoop导出Hive到MySQL】
4. Hive中文件的存储类型:【Textfile】【Sequencefile】【rcfile】【orcfile】【parquet】结果对比;
5.Hive的内嵌函数:【explode】【Split】【Collect_set】【array】【concat_ws】【row_number】【lateral view】【wordcount】【分组排序row_number】【条件查询】 Hive的权限管理:【用户】【组】【角色】
大数据环境搭建-NoSQL大数据仓库HBase
HBase0.98.9

HBase是高可靠性、高性能、面向列、可伸缩的分布式存储系统。
利用HBase技术可在PC Server上海量数据的高速随机查询,笑傲大数据的还是我,有木有!
1.Hbase基本概念、特点;
2.Hbase的安装:【单节点】【分布式安装】
3.逻辑模型:【表】【行键】【列族】【列限定符】【时间戳】【单元格】;
4.物理模型:【HFile】【Region】
5.Hbase的体系结构:【HMaster】【HRegionServer】【HRegion】【HStore】【Hlog】【HFile】
6.Hbase基本操作:【Shell操作】【Java的增删改查,过滤器】;
7.Hbase数据导入导出:【自定MR导入导出】【lmport/Export导入导出,Sqoop导入】
8.Hbase的协处理Observer;
Kafka高吞吐量的分布式发布订阅消息系统集群环境
Kafka2.10-0.10.0.1
浏览,搜索和用户操作行为是在大型网站一个关键因素。数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。像Hadoop的日志数据和离线分析系统,要求实时处理的限制,这时就需要Kafka来解决! 1.消息列队讲解;
2.Kafka概述、Kafka组件讲解;
3.Kafka安装:【单机】【集群】;
4.Kafka的操作:【Topic的增删改查】【体验消息的生产和消费】
5.Kafka组件扩展说明:【broker】【producer】【Consumer】【topic】【partition】
6.Java操作Kafka:【producer】【自定义Partition】【Consumer】【统计练习】;
7.Kafka的应用;
基于Lucene的搜索服务器
ElasticSearch2.3.0
当前流行的企业级搜索引擎全文索引框架技术!能够达到实时搜索,稳定,可靠,快速,安装使用方便。
1.通过lucene、solr引入分布式es;
2.ES讲解:【全文索引和MySQL的对比】【Rest】;
3.ES的安装:【单机】【分布式】;
4.ES的操作:【curl shell命令行】【get】【put】【post】【delete】【head】【ES常用插件】;
5.ES的核心概念:【cluster】【shards】【replicas】【recovery】;
6.Java api操作:【增删改查】【分页】【检索】;ES实战
新一代数据库缓存系统
lgnite1.7.0

Apache lgnite内存数组组织框架是一个高性能、集成和分布式的内存计算和事务平台,用于大规模的数据集处理,比传统的基于磁盘或闪存的技术具有更高的性能,同时他还为应用和不同的数据源之间提供高性能、分布式内存中数据组织管理的功能。
版本:apache-ignite-fabric-1.7.0,Apache lgnite内存数据组织是高性能的、集成化的以及分布式的内存平台,他可以实时地在大数据集中执行事务和计算,和传统的基于磁盘或者闪存的技术相比,性能有数量级的提升。
1.Apache lgnite讲解:【lgnite简介】【lgnite是什么?】
2.lgnite特性:【高级集群化】【数据网络(JCache)】【流计算和CEP】【计算、服务网络】【文件系统】【分布式数据结构】【分布式消息】【分布式事件模型】【Hadoop加速】【Spark共享RDD】
3.lgnite和Hadoop以及Spark的关系;
4.lgnite和Redis的对比;
5.lgnite部署:【配置】【第一个lgnite案例】
6.基本概念介绍;
7.集群化部署:【集群组】【领导者选举】【集群配置】【集群Apl】
8.交互式SQL:【lgnite与Apache Zeppelin】【Zeppelin安装和配置使用】
9.分布式数据结构:【队列和集合】【原子类型】【ID生成器】;
10.lgnite Rest APl:【常见API具体操作】;
11.lgnite文件系统(IGFS)介绍;
12.Hadoop加速器:【lgnite和Hadoop整合】【lgnite和Hive整合】;
13.lgnite与Spark整合讲解;
14.Visor管理控制台;
Flink是针对流数据和批数据的分布式处理引擎
Flink1.1.2
Apache Flink是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的APl。版本:flink-1.1.2-bin-hadoop26-scala_2.10.tgz.
1.Flink讲解;
2.Flink特点:【快速】【可靠性扩展性】【表现力】【易用性】【完全兼容Hadoop】;
3.Flink中的调度讲解
4.Flink生态圈讲解
5.Flink的安装部署【Standalone模式】【yarn Cluster模式】
6.Flink的HA简单介绍(主要依托Yarn的HA);
7.Flink的Rest APl简单讲解;
8.Flink实战-wordcount;
Redis3.2.0
NoSQL——键值对内存数据库
1.Redis简介、Redis部署:【单机】【分布式】【集群增删节点】
2.Redis数据类型:【string】【hash】【set】【sorted set】;
3.java操作Redis-jedis
4.Redis中的事务排序aof
5.Redis的安全策略客户端:Redis的应用场景和主从复制;
专门用于事件流处理的分布式计算框架
Storm1.0.2
高频数据和大规模数据的实时处理:版本:1.0.2。
1.Storm讲解:【Hadoop和Storm的对比】【流处理过程】;
2.Storm开发:【本地Storm】【Storm相关术语解释】;
3.Storm集群搭建:【Storm集群结构】【基本体系架构】【配置文件】【启动集群的注意问题】;
4.分布式开发:【向集群提交作业、停止作业】【并行度:worker executor task解释】;
5.Stream grouping:【流分组】【自定义流分组】【案例 统计单词出现总数及各个单词个数】;
6.Storm的可靠性:【可靠性和Jacker消息确认机制】;
7.Storm的定时任务:【全局和局部】;
8.Storm核心概念总结;
9.Storm的目录:【工作目录】【zk中的目录】【日志目录】;
10.案例:【大数据应用:统计网站pv uv等】;
11.Storm复杂流程;
12.DRPC概念的介绍;
13.Trident中的基本组件;
14.Storm优化;
15.Storm雪崩;
16.Storm实战:【网站访客区域分布】;

大数据开发:第二阶段 【商业主流Spark实时大数据处理系统开发实战】

Spark生态系统以及本课程价值
Spark是开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点:但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法,是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
1.Spark生态系统整体介绍;
2.本课程介绍、特色以及价值;
基础与实战
1.Scala入门实战(数组和map等各种实战);
2.Scala进阶实战案例;
3.Scala面向对象入门实战(基本的类、对象和Trait接口实战);
4.Scala面向对象进阶实战;
5.Scala函数式编程大量实战案例(高阶函数、集合和序列等);
6.Scala高级功能函数实战(泛型、隐式参数和隐士类);
7.Scala的Actor实战;
8.AKKA的架构解析与案例实战;
9.Scala课程总结;
大数据环境搭建-Linux集群
Linux是大数据入门的基础,其一是企业级所有的大数据软件都会部署在Linux平台上,其二是大数据的研发都是基于Linux的。所以Linux基础知识是必不可少的。
1.搭建CentOS6.5集群搭建(VMware和VirtualBox);
大数据环境搭建-数据实时处理Spark集群
Spark是一种与Hadoop相似的开源集群计算环境,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
1.搭建Spark1.6.1集群(单机、伪分布式和完全分布式);
2.Spark1.6.1源码编译课程讲解;
Spark Core编程模型解析和实战
1.Spark Runtime (Driver、Master、Worker和Executor)深度分析和RDD揭秘;
2.Spark Java开发WordCount实战(local本地运行);
3.Spark Java开发WordCount程序提交到集群运行;
4.Spark Scala、python开发WordCount程序;
5.Spark Spark-shell开发WordCount程序;
6.Spark pyspark开发WordCount程序;
7.Spark Spark-submit命令详细说明;
8.Spark WordCount深度原理剖析;
9.Spark架构原理剖析;
10.Spark RDD基本创建所需要的数据源(集合、本地文件、HDFS、Hbase等);
11.Spark RDD实战和各种实战案例;
12.Spark RDD持久化、广播变量和累加器;
13.Spark 高级排序和TopN深度揭秘;
14.Spark Core综合实战(Java和Scala);
Spark Core运行架构以及内核原理、源码深度剖析
1.Spark 内核架构深度剖析;
2.Spark RDD的依赖关系深度剖析(Lineage);
Spark ON Local深度剖析:Spark ON
3.Yarn深度剖析;Spark ON Mesos深度剖析;
4.Spark的开启之旅深度剖析;
5.Spark的Master(HA、注册、状态改变和资源调度算法等)原理剖析和源码剖析;
6.Spark的Worker原理剖析和源码剖析;(Worker运行流程图分析、Worker启动Driver源码分析和Worker启动Executor源码分析)
7.Spark中Job运行原理深度分析;
8.Spark的大脑运行机制深度分析;
9.Spark的Task处理内幕和源码深度剖析;
10.Spark的Shuffer模块原理剖析;
11.Spark的BlockManager架构原理、运行流程图和源码分析;
12.CacheManager运行原理流程图和源码分析;
13.Spark回顾和总结主要技术点;
Spark性能优化策略和方案
1.Spark性能优化整体介绍;
2.Spark性能优化:开发调优(开发Spark过程中如何进行调优);
3.Spark性能优化:资源调优(Spark各种资源参数的配置,对优化程序有重大影响);
4.Spark性能优化:数据倾斜(各种大量数据产生的数据倾斜的解决方案);
5.Spark性能优化:各种Shuffer调优(各个Shuffer过程的调优方案);
6.Spark2.0给性能带来了那些重要变化:比如(Tungsten第二阶段、统一内存管理和Dataset等性能提升);

大数据开发:第三阶段【Spark核心框架,实时流处理,机器学习,图计算商业核心应用】

Spark核心框架的应用-Spark SQL
1.Spark SQL背景整体介绍;
2.进行Spark SQL之前预热的Hive实战;
3.Spark SQL DataFrame处理的案例与解析;
3.1Spark SQL DataFrame的编程模型、基本操作案例与解析;
3.2Spark SQL DataFrame与RDD之间的转化案例与解析(Java、Scala和Python);
3.3Spark SQL缓存表(列式存储)的案例与解析;
3.4Spark SQL DataFrame APl的应用案例与解析;
4.Spark SQL处理各种数据源的案例与解析;
4.1Spark SQL加载保存功能的案例与解析(Java 、Scala和Python)
4.3Spark SQL Hive数据源复杂综合案例实战(读写各种分区表)
4.4Spark SQL JDBC数据源复杂综合案例实战
4.5Spark SQL JSON数据源复杂综合案例实战
4.6Spark SQL 集成ElasticSearch的案例实战
5.Spark SQL 各种函数综合实战(包含UDF、UDAF和开窗函数等功能)
6.Spark SQL Thrift Server实战
7.Spark SQL Hive On Spark大揭秘(企业级好没有正式用,扩展知识面)
8.Spark SQL内核引擎深入解析与性能优化策略(缓存数据、增加并行度、搞笑的数据格式、内存的使用、广播变量和合适的task等);
Spark SQL综合案例实战
Spark核心框架的应用-Spark GraphX
1.图计算的整体背景介绍以及跟其它图数据库和图计算引擎的结合和对比(Neo4j、GraphSQL、GraphLob、Hama、Giraph和Spark Graphx);
2.Spark GraphX原理和实现;
3.Spark GraphX的基本操作(Verticies\Edges\Triplets)实战;
4.Spark GraphX在社交领域中的实战(Triangle);
5.Spark GraphX 两点之间最短优化路径实战(ShortesPaths);
6.Spark GraphX PageRank实战;
7.Spark GraphX在金融领域中的实战(反欺诈、组团欺诈和客户失联等);
Spark GraphX 医疗行业中的实战(医疗中病、症、医案、病和方剂的推理);
Spark核心框架的应用-Spark Tachyon
1.Tachyon的架构解析以及应用场景;
2.Tachyon的操作实战;
Tachyon与Spark的集成实战;
Spark核心框架的应用-Spark Machine Learing
1.Spark Mlib机器学习的背景介绍以及应用场景;
2.Spark Mlib线性回归(Linear Regression)算法原理和实战
3.Spark Mlib聚类(K-Means)算法原理和实战
Spark Mlib协同过滤算法(Collaborative Filtering)ALS原理和实战;
企业级大数据架构案例剖析
1.星环科技TDH的大数据剖析;
2.中瑞智慧CWH的大数据剖析;
3.酷土豆使用Spark大数据剖析;
4.京东使用大数据Spark剖析
5.华为使用Spark大数据剖析
6.腾讯使用Spark大数据剖析等
7.IBM的大数据架构剖析
酷狗音乐的大数据剖析
基于Hadoop与Spark环境的大数据综合项目实战
1.电商购物平台大数据处理系统;
2.大型网站大数据处理分析实时推送系统;
连锁酒店大数据处理分析系统;

入门快、实用度高、专家驱动、学习效果有保障

企业不养闲人  只需要做项目的牛人

边学变练    技能全覆盖    实力熬炼    锻造好作品

  • IBM大数据架构剖析
    中瑞智慧大数据剖析
    京东大数据剖析
    酷狗音乐大数据剖析
  • 酷土豆大数据剖析
    华为Spark大数据剖析
    星环科技TDH大数据剖析
    腾讯Spark大数据剖析

站在大数据风口    你才有选择的主动权

大数据工程师    多渠道就业

大数据开发工程师
大数据统计工程师

大数据架构师
大数据运营经理

大数据分析工程师
大数据挖掘和处理专员

大数据咨询顾问
大数据存储工程师

大数据算法工程师
Hadoop开发工程师

为你解答你最关心的问题

即刻获得北大青鸟课工场VIP免费试听权限

姓名:

电话:
Q Q: