当前位置: 企业公开课 > 职业技能 > 其它技能
大数据分析高级工程师
课程安排: 上海

其它排期:

授课讲师:钱老师

课程价格:5000

培训对象:

报名热线:400-801-3929

请填写您的报名信息

您的称呼

报名企业

您的电话

< 返回继续选课


时间地点: 2014-7-10 至 2014-7-13  上海      授课讲师钱老师    学习费用: 5000 元/位

2014-07-10至2014-07-13【上海】  

培训对象: IT公司数据分析师、数据中心架构师、商业智能分析师、研发负责人、研发工程师、各地政府云计算、物联网产业负责人,CIO、信息中心、技术总监,云计算产业投资团队,云计算应用开发商,云计算硬件设备、运营服务


培训费用:5000元/人(含教材、培训费、以及学习用具等费用)食宿统一安排,费用自理。

培训证书:工业和信息化部人才交流中心颁发的《工业和信息化领域急需紧缺人才》大数据分析高级工程师证书。证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。证书查询:www.ncie.gov.cn


前言:
我培训中心在人力资源和社会保障部、工业和信息化部联合支持下,服务中国IT,创新企业未来。为深入实施人才强国战略,进一步加快急需紧缺人才队伍建设,推动人才培养工作更好地为经济社会发展服务,根据《国家中长期人才发展规划纲要(2010-2020年)》和《专业技术人才知识更新工程实施方案(2010-2020年)》要求,我中心以新型工业化发展和信息化建设所涉及的经济领域为重点,紧紧围绕构建和谐社会和“调结构、转方式、促发展”的中心任务。为响应工业和信息化部2012年正式启动“工业和信息化领域急需紧缺人才培养工程”。云计算作为战略重点项目新兴产业,政府和业界都表现出了极大的热情。
随着云时代的来临,大数据技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素,人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析技术将帮助企业用户在合理时间内攫取、管理、处理、整理海量数据,为企业经营决策提供积极的帮助。大数据分析作为数据存储和挖掘分析的前沿技术,广泛应用于物联网、云计算、移动互联网等战略性新兴产业。虽然大数据目前在国内还处于初级阶段,但是其商业价值已经显现出来。为加强大数据分析创新发展顶层设计和科学布局,推动相关人员更好理解和掌握大数据分析的关键技术原理、未来发展方向,为此培养大数据分析高级工程师。


培训内容:

第一天Hadoop和传统数据库技术优劣势对比
Hadoop/Hive 对比 Oracle 在构建数据仓库上的优劣势
Hadoop 如何和传统IT系统配合完成原来不可能的任务
Hadoop版本讲解及Hadoop新旧版本使用对比
Apache社区版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本
Hadoop的来源和动机
传统大规模系统存在的问题
Hadoop概述
Hadoop分布式文件系统   
MapReduce工作原理    
Hadoop集群剖析Hadoop生态系统对一种新的解决方案的需求
Hadoop的行业应用案例分析
Hadoop在云计算和大数据的位置和关系

非结构化数据与半结构化数据在大数据中的应用
某银行数据统一处理平台,通过Hadoop进行系统优化
某电信运营商用户行为分析系统某电力行业数据采集大数据分析案例
联通使用Hadoop/Hbase解决3G详单查询问题。
Hadoop生态系统介绍和演示
Hadoop HDFS 和 MapReduce
Hadoop数据库之HBase
HBase架构及如何应用与编程开发相结合
Hadoop数据仓库之Hive
Hive架构及如何应用与编程开发相结合
Hadoop数据处理脚本Pig
Pig架构及如何应用与编程开发相结合
Hadoop数据接口Sqoop和Flume
Sqoop和Flume架构及如何应用与编程开发相结合
Hadoop工作流引擎 Oozie
Oozie架构及如何应用与编程开发相结合
Hadoop生态系统各模块应用与编程开发相结合
案例及实验
某银行如何使用Hadoop统一数据平台
手机上网日志分析
移动GPRS上网日志查询系统
国家电网城区用电量分析
联通不良信息检测系统
电厂海量数据监控分析系统
某银行数据统一处理平台
海量指纹比对系统
Hadoop集群调优

选择适合hadoop的硬件配置
Hadoop配置项优化
Hadoop配置优化 - core-site.xml
Hadoop配置优化 - hdfs-site.xml
Hadoop配置优化 - mapred-site.xml
Hadoop配置优化 - 机架感知
Linux操作系统优化
其他配置和参数调优
网络带宽参数调优
系统参数调优
配置文件管理
严格控制root权限
Java的GC模式
选择正确的JDK
hadoop作业调优
Map side tuning设置
Map side设置
Hadoop硬件优化
不是所有的硬件都合适拿来直接使用

安装调优的第一步服务器硬件的选型的窍门
如何选择适合业务使用的CPU
内存越大越好吗?设置合理的的内存配置
连接网络的选择和优化
高速硬盘的选择注意事项
硬盘为什么不做raid?
设置网络的注意事项
中间结果压缩对磁盘和网络的优化
机架感知,网络和磁盘IO优化作用,确定存储的具体位置,
内存参数,map/reduce槽位数的计算方法。
对磁盘和网络的优化
Java工具使用,jstack使用
Sun和open之间的区别,JIT编译器的使用
inux系统参数调优
Linux监控系统的使用
cacti,
ganglia

常用的linux排错工具lsof,strace,iostat,vmstat,netstat...
常见异常现象级处理方法
网卡流量导致连接失败        
权限错误
主机名IP转换错误          
NN与DN namespaceID不一致
磁盘满导致报错           
Jave heap size OOM

第二天HDFS高级程序实战演练
HDFS实战-命令行等使用        
HDFS命令行工具
启动、停止HDFS服务
如何查看HDFS日志
如何查看HDFS Web控制台       
HDFS参数配置
案例及实验

HDFS实战-Java API使用         
Eclipse 开发环境介绍
HDFS 开发基本步骤
HDFS Java API详解
Configuration             
Path
FileSystem               
Stream、IOUtils
Hadoop HDFS HA方案介绍
Hadoop 1.0 系 HA的一些办法
Hadoop 2.0 介绍
MapReduce高级程序实战演练
使用 Hadoop MapReduce Streaming 编程   
MapReduce的优化
MapReduce的任务调度
MapReduce编程实战
满足解决实际数据分析问题的高级Hadoop API
MapReduce流程 
剖析一个MapReduce程序
基本MapReduceAPI 概念 
驱动代码 Mapper、Reducer  Hadoop流
API 使用Eclipse进行快速开发       
新MapReduce API
案例及实验Hadoop Streaming 和 Java MapReduce Api 差异。

MapReduce 实现数据库功能
利用Combiners来减少中间数据
编写Partitioner来优化负载平衡
直接访问Hadoop分布式文件系统(HDFS)
Hadoop的join操作辅助排序在Reducer方的合并
定制Writables和WritableComparables
使用SequenceFiles和Avro文件保存二进制数据
创建InputFormats OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并 

第三天Hadoop SQL 接口Hive
Hive基础               
Hive的作用和原理说明
Hadoop仓库和传统数据仓库的协作关系;  
Hive与传统数据库的对接使用
Hadoop/Hive仓库数据数据流        
Hive Cli 的基本用法
HQL基本语法        
自行编写数据库与Hadoop相互ETL工具的思路
使用JDBC 连接Hive进行查询和分析    
使用正则表达式加载数据
HQL高级语法
编写UDF函数
编写UDAF自定义函数          
执行嵌套sql的优化
Hadoop数据库之HBase及HBase优化
hbase概念与架构             
hbase核心知识点
hbase安装、部署
HBase配置优化综述
表设计优化相关参数           
监控工具使用方法及注意事项   
常见异常现象级处理方法
案例及实验

hot region造成读请求瓶颈
region预划分
Memstore合并设置的时机选择
合并storefile策略设置技巧
Memstore flush设置时机选择
CF数量多少对读写性能的影响
自动关闭flush的目的
Hbase-env.sh、Single、multi-thread、CMS使用及参数调整
GC回收垃圾时机、GC日志打印设置
GC阶段,region无法提供服务如何如何处理
Split时机控制(增大、disable)方法



培训师资:钱老师

大数据专家。在电信、电力、金融行业从事Java开发和架构设计的工作;资深云计算研发工程师。作为项目的主要成员和负责人参与并领导完成了多个大型复杂项目,并成功应用于行业解决方案,如海量数据匹配系统、电力行业实时数据采集分析系统等。设计并实现了实时索引系统-云搜,成功应用与某国企知识库系统。并可应用与互联网行业的搜索等应用。完成多个云计算解决方案的架构,涉及到金融韩行业海量数据分析与数据处理系统、海量日志分析系统、电力用电信息统计系统等,获得业界认可。