课程简介 完整系统的介绍在分布式架构体系下,如何以应用为核心,建设应用架构管理体系和运维体系,包括CMDB建设、IT对象建模、运维自动化、3S稳定性体系建设、SRE&CRE实践经验、故障管理、持续交付、组织架构探讨,业务上云等内容。 旨在帮助,正处于数字化转型阶段的传统行业,以及处于分布式架构实施阶段的中小型公司,提供互联网运维优秀经验。目标收益 1.掌握分布式架构体系下,架构管理及运维模式的核心思想 2.掌握IT对象建模方法论 3.掌握运维体系基石CMDB,以及运维自动化建设思路 4.掌握SLO、SLI及SLA等稳定性核心概念,及稳定性体系建设思路 5.掌握持续交付思路 6.深入了解业界行业内,平台类技术的发展趋势及面临的各种问题 课程大纲 微服务架构下的运维体系思路 •业界技术发展趋势(淘宝、Twitter案例)
•微服务带来的挑战,运维跟架构的紧密相关性
•技术体系建设思路:大中台、小前台策略(蘑菇街、阿里案例)
•探讨:微服务是银弹吗?
应用为核心的架构管理体系 1、应用为核心的运维管理思路 •应用起源-为什么要以应用为核心
•应用模型及其关系模型的建立
2、应用架构管理的基石-CMDB •传统CMDB及应用CMDB的区别对比
•五大能力1:元数据和元关系管理能力
•基于CMDB的运维自动化建设
•五大能力2:数据采集能力
•五大能力3:数据同步能力
•五大能力4:模型拓展能力
•五大能力5:拓扑展现能力
3、标准化体系建设 •运维对象标准化及对象建模
•分布式架构标准化实践
4、应用生命周期管理 •生命周期管理的重要性
•如何从生命周期的视角去分析运维对象和场景
5、应用运维到应用架构管理角色的转变 稳定性体系建设 1、如何保证稳定性? •未雨绸缪,如何做好保障?
•临危不惧,快速恢复(Design for Failure)
•为时未晚,有效复盘
2、Google SRE实践 •SRE的关键原则
•3S(SLO、SLI、SLA)稳定性体系实践
•CRE实践
4、稳定性保障体系 •极端业务场景
•容量规划
•限流降级
•开关预案
•全链路跟踪
•故障模拟(Chaos Engineering)
有效的故障管理模式 1、探讨:如何面对、理解和认识故障?出了故障是否要处罚? 2、故障的定级定责 •关键角色岗位:技术支持
•定级&定责标准
•鼓励做事,而不是惩罚错误
3、故障应急和复盘 •应急机制和组织
•复盘机制
•定期的案例汇总和总结 持续最佳交付实践 1、持续交付全流程介绍 2、持续交付-需求管理 •项目管理与需求分解
•发布协调
3、持续交付-开发模式选择 •主干模式
•Gitflow模式
•分支模式
4、持续交付-多环境管理 •集成测试环境
•项目环境
•预发环境
•Beta环境
•生产环境
5、持续交付-配置管理 •多配置文件模式
•占位符模式
•AutoConfig模式
6、持续交付-功能性及非功能性质量保障 •单元和接口测试
•非功能性能验证
7、持续交付-发布/部署模式 •蓝绿部署
•金丝雀(灰度)发布
•滚动发布
大型互联网公司云上运维实践 1、我们为什么要选择上云 •传统运维模式下所面临的问题和挑战
•技术发展趋势的解析
•我们的建设发展过程
2、云上建设实践 •我们的选择-混合云建设模式
•CDN和云存储
•静态化建设和二级CDN架构
•边缘计算
3、面向应用层的云架构解决方案 •Spring Cloud
•CNCF
•面向应用层云架构的运维体系建设思路分享
4、云计算和AI时代,运维转型问题 运维组织架构建设 1、国内外运维组织架构建设分享 •Google SRE模式
•Netflix Core SRE模式
•阿里技术保障模式
•腾讯技术运营模式
2、运维发展趋势和转型探讨 •DevOps
•AIOps
•SRE
•技术运营
讲师介绍 C.Z 资深DevOps和运维专家,现任一线电商企业技术总监,此前在华为工作7年,具备丰富的大型电信级业务软件开发和运维经验。 多届大会的金牌讲师和优秀出品人,目前,个人专注于云计算和AI时代的技术架构和团队转型。 |