当前位置: 企业公开课 > 职业技能 > 其它技能
大数据分析高级工程师
课程安排: 北京

其它排期:

授课讲师:王老师

课程价格:5000

培训对象:

报名热线:400-801-3929

请填写您的报名信息

您的称呼

报名企业

您的电话

< 返回继续选课


时间地点: 2014-9-19 至 2014-9-22  北京      授课讲师王老师   学习费用: 5000 元/位

2014-09-19至2014-09-22【北京】  

培训对象: 高级开发工程师、设计师、架构师、系统管理员、开发经理、测试经理、产品经理、项目经理等。

培训费:5000 元/人(含教材、培训费、以及学习用具等费用)食宿统一安排,费用自理。


培训对象
IT公司数据分析师、数据中心架构师、商业智能分析师、研发负责人、研发工程师、各地政府云计算、物联网产业负责人,CIO、信息中心、技术总监,云计算产业投资团队,云计算应用开发商,云计算硬件设备、运营服务提供商,高校、科研院所云计算项目负责人。
高级开发工程师、设计师、架构师、系统管理员、开发经理、测试经理、产品经理、项目经理等。

培训证书
工业和信息化部人才交流中心颁发的《工业和信息化领域急需紧缺人才》大数据分析高级工程师证书。证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。


培训内容

模块一大数据的导入传统大规模系统存在的问题
大数据的来源及解决的问题
大数据、大数据架构及大数据架构师
大数据的典型应用以及应用方式
大数据领域主要技术
行业大数据特点,大数据在互联网、通信、金融、电力、交通、航空、舆情分析、公安、节能、智慧城市等行业的应用状况与前景
大数据商用解决方案IBM/HP/INTEL/EMC/SAP/ORACLE/TEREDATA/GE等与开源解决方案对比
大数据与云计算的关系
大数据与数据中心
大数据的运维。
大数据能为我们带来什么
Hadoop在淘宝
电商眼中的Hadoop和推荐系统。
移动大云项目(big cloud)中的Hadoop
LinkedIn大数据应用
Intel与IBM的大数据
Hadoop数据中心展示
现代大数据应用架构展示
大数据之Nosql应用展示
虚拟化与云计算与hadoop结合案例
个性化:大数据暗海中的领航员
大数据的魅力
大数据应用对网络的影响


模块二Hadoop引入与生态系统
大数据与hadoop
Hadoop起源与发展
hadoop特点、主要思想及主要架构
HDFS的思想与架构
Mapreduce的思想与架构
hadoop生态系统
hadoop对互联网架构的影响
hadoop与未来的数据中心
大数据、MPI和BI
hadoop未来发展
Yahoo/google如何使用Hadoop构建大规模搜索的应用
传统IT架构与hadoop IT架构对比
Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本
未来数据中心架构
Hadoop与MPI对比案例
Hadoop 与spss/sas/R等数据分析工具对比


模块三HadoopHDFS和MAPREDUCE详解
Hadoop HDFS 基本结构
Hadoop HDFS 副本存放策略
Hadoop NameNode 详解
Hadoop SecondaryNameNode 详解
Mapreduce的编程模式
Hadoop的调度器详解
Hadoop DataNode 详解
Hadoop JobTracker 详解
Hadoop TaskTracker 详解
HADOOP 序列化writable与avro
HADOOP Job的执行流程详解
MAP函数
REDUCE函数
Combiner与partitioner
以及shuffle阶段详解
多hadoop job如何工作
Hadoop工作流oozie与azkaban详解
Hadoop HDFS核心代码展示与实现原理示例
Hadoop Namenode的核心代码与实现
Namenode内存数据结构示例
Hadoop Mapreduce核心代码展示与实现原理示例
Jobtracker功能以及内部结构示例
Tasktracker功能详解以及内部结构示例
InputFormat类以及其他实现类原理与代码解析
OutPutFomat类以及其他实现类原理与代码解析
InputSplit 原理与类代码解析
RecordReader原理与类代码解析
Mapper类核心代码
Hadoop Reduce类核心代码
Hadoop 核心代码
Hadoop 工作方式实例


模块四NOSQL与HBASENOSQL的起源
CAP的理论
NOSQL的主要思想与架构
NOSQL、HBASE、HADOOP、RDBMS的比较
HBASE原理
HBase架构
HMaster
HRegionServer
Region工作模式详解
HBASE物理结构与逻辑结构详解
HLOG、HFILE、MEMSTORE、BLOCKCACH
Table,rowkey,columnfamily,column,timestamp,cell
HBASE四维一体查询方式
Rowkey:columnfamily:column:timestamp
HBASE API详解
SCAN/GET/PUT/DELETE/INCREMENT
HBASE设计
HBASE行健rowkey的设计
HBASE列族与列的设计
Zookeeper架构
HBASE设计案例详解Bigtable在google
Dynamo在amazon
HBASE多个经典应用的设计案例
HBASE与oracle等rdbms比较
NOSQL与HBASE和RDBSMS以及hadoop比较
HBASE API 操作示例
PUT
DELETE
SCAN
INCREMENT
GET
HTableInterface
HTableDescriptor等
HBASE SHELL 与常用操作示例
HBASE在行业内典型应用案例
HBASE在小米
HBASE在华为
HBASE 在中国移动
HBASE与IT解决方案优劣势分析
HBASE设计调优
HFILE结构详解
HBASE访问路径分析
HBASE写入路径分析
HBASE硬件选型和网络拓扑案例
HBASE最佳实践
从RDBMS到HBASE


模块五Hadoop数据分析hadoop数据分析的生命周期
采集、入库、算法定义、mapreduce开发、数据可视化
mapreduce程序开发生命周期
定义需求-算法定义-mapreduce实现
数据采集Flume/scribe
关系型数据库与hadoop数据交换工具sqoop
使用 Hadoop MapReduce Streaming 编程
案例剖析MapReduce程序
主要的Mapreduce API演示
Mapper、Reducer、Combiner、Partitioner、InputFormat、OutPutFormat、驱动程序
使用Eclipse进行快速开发
MapReduce程序优化
MapReduce的任务调度
使用Hive和pig高效开发mapreduce
Hive基础
Pig基础
Hive Cli与HQL
Pig shell与piglatin
Hadoop数据分析各种方法对比
Pig/hive/mapreduce/streaming/pipe
hadoop平台常用算法
分类
聚类
贝叶斯
各种图算法
协同过滤等
使用Mahout做数据挖掘
Hadoop Streaming 和 Java MapReduce Api 差异。
 MapReduce 实现数据库功能
利用Combiners来减少中间数据
编写Partitioner来优化负载平衡
 直接访问Hadoop分布式文件系统(HDFS)
Hadoop的join操作
辅助排序在Reducer方的合并
定制Writables和WritableComparables
使用SequenceFiles和Avro文件保存二进制数据
创建InputFormats OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并
一个图算法的实现:单源最短路径
几个通过pig/hive/mapreduce/streaming联合数据分析的案例
使用分布式缓存(Distributed Cache)
直接访问Hadoop分布式文件系统(HDFS)
使用JDBC 连接Hive进行查询和分析
使用正则表达式加载数据
HQL高级语法
编写UDF函数
编写UDAF自定义函数
使用Sqoop进行数据分析
使用oozie配置工作流
一个数据仓库的案例将课程体系的组件串联
经典数据分析应用详解


模块六Hadoop和HBase部署与调优
Hadoop与Hbase试验集群的部署结构
Hadoop与Hbase安装依赖关系
Hadoop与Hbase生产环境的部署结构
Hadoop与Hbase集群部署
Hadoop与Hbase高可用配置方法
Hadoop与Hbase集群测试方法
Hadoop与Hbase集群异常Debug方法
Hadoop与Hbase运维与监控
ganglia/nagios/cati
Hadoop与Hbase集群调优
Hadoop与Hbase配置项优化
Linux操作系统优化
网络带宽参数调优
配置文件管理
hadoop 安全管理
Hive与pig调优
使用kerberos加强hadoop安全
Hadoop安装部署实验
Red hat Linux基础环境搭建
Hadoop 单机系统版本安装配置
Hadoop 集群系统版本安装和启动配置
使用 Hadoop MapReduce Streaming 快速测试系统
Hadoopcore-site,hdfs-site,mapred-site 配置详解
数据压缩解压算法
Hadoop 配置项优化:core-site.xml
Hadoop 配置项优化:hdfs-site.xml
Hadoop 配置项优化:mapred-site.xml
Hadoop 配置项优化:机架感知
其他配置项和参数调优
HBASE配置项调优: hbase-site.xml
HBASE 底层调优:hadoop与linux环境调优
Hive与pig参数调优
Hive与pig job 调优
HBase与hadoop环境变量设置与调优:
Hbase-env.sh
Hadoop-env.sh



培训师资
王老师简介  北京航空航天大学教授。主要研究方向是分布式系统,大规模数据计算系统及关键技术等。2007年以来,作为技术总负责人参与国家863计划课题“中国国家网格软件研究与开发”,负责软件总体设计和核心技术研发。参与XtreemOS,OMII-EU/OMII-UK欧盟第六框架和英国e-Science国际合作项目。先后参与国家科技支撑项目《增强型搜索引擎研究及示范应用》、《北京市安全局物联网安全监控项目》、《2012年伦敦奥运会国家女排运动视频分析与设计》、《中国移动POC项目设计与开发》、《华为公司网络高级应用协议测试》《汽车制造工艺开发平台》、《工商系统食品在线监管》项目。在国内外期刊多次发表学术论文及学术著作。