当前位置:首页 > 云计算 > 正文

云计算运维工程师日常工作流程图


一、软件公司需要的运营维护工程师主要是干什么工作?

1事件管理:目标是在服务异常发生时尽快恢复服务,同时保证服务可用性,促进和修复服务问题;设计制定相关预案,确保发生服务故障时能够有效止损。该领域的重点工作包括:

1问题发现:设计开发高效的监控平台和报警平台,利用机器学习、大数据分析等方法对大量监控进行总结和分析。系统中的数据,当系统出现异常时,能够快速发现问题并确定故障的影响。

2问题处理:设计和开发高效的问题处理平台和工具,能够在系统异常发生时做出快速/自动化决策并触发适当的停机计划并快速恢复服务。

3问题追踪:通过分析问题发生时的各种系统性能(日志、变化、监控)来确定问题的根本原因,并制定和开发计划工具。

2变更管理:尽可能高效地完成产品功能的迭代变更。这方面的工作主要内容是:

1配置管理:通过配置管理平台(自主开发、开源)。

2发布管理:通过构建自动化平台,确保每次版本变更都能安全可控地发布到生产环境。

3容量管理:在服务运维阶段,为保证服务架构部署的合理性以及了解整体服务冗余情况,需要持续评估系统的承载能力。不断优化它。这方面的工作主要内容是:

1容量估算:通过技术手段模拟实际用户需求,通过设置一个容量估算模型数据来测试整个系统能够处理的最大吞吐量。整个服务的容量。

2容量优化:根据容量评估数据,确定系统瓶颈,提供容量优化方案。例如,通过调整系统参数、优化业务部署架构,可以有效提升系统容量。

3架构优化:为了支持产品的持续迭代,需要不断优化和调整架构。保证整个产品在面对日益丰富和复杂的功能时能够保持高可用性。

扩展信息

1无论做什么运维,运维工程师最基本的职责就是负责服务的稳定性。确保服务7*24小时为用户提供不间断的服务。此外,运维工程师的主要职责如下:

1:保证并持续提高服务的可用性,保护用户数据,提升用户体验。

2效率:使用自动化工具/平台提高研发生命周期中的软件工程效率。

3:通过技术工具优化服务架构和性能调优,通过资源优化组合提高ROI。

2从产品生命周期角度:

1产品发布前:负责参与并审核架构设计的合理性和功能性。发布后就可以高效稳定的工作了。

2产品发布阶段:负责利用自动化技术或平台,确保产品能够高效上线和发布,然后快速、可持续地迭代。

3产品运维阶段:负责保障产品24/7稳定运行,期间出现的各种问题可以通过优化系统架构和部署不断定位和解决;工作性能提高系统服务的稳定性。

参考来源:-运维工程师