Skip to content

Latest commit

 

History

History
104 lines (54 loc) · 4.12 KB

chapter5.md

File metadata and controls

104 lines (54 loc) · 4.12 KB

业务运维工作内容归纳

业务整个生命周期中业务运维的作用概括:

A、立项阶段

和业务方面了解项目的目标用户、服务地区、项目的大致规模等信息,可以提前了解和准备资源的提供商(如IDC机房、CDN厂商),测试网络质量,资源采购(如物理IDC需要相关资源),为项目后期的稳定运行准备好基础环境。

了解业务或产品的运营规划信息:目标人群、覆盖地域、推广方案和计划、预计的流量/压力等运营数据信息

B、准备开发阶段(运维要进行技术宣讲+技术评审):

1、技术方案选型

合不合理,选择运维熟悉的、统一的组件,比如操作系统的版本,memcache vs redis。

如果一定要用某种技术,运维可以提前准备,熟悉这些技术,比如java,MongoDB,微服务,服务注册发现等

2、可运维性沟通

端口的规划、启停方式的规范、目录结构、退休和灰度机制、是否应该接收什么信号、配置文件管理

3、高可用性、可扩展性、健壮性

用户增长了怎么办、服务和数据是否能完全的分离、防攻击怎么处理、各种预案

4、监控的便利性

日志内容和格式、进程内部数据获取的接口(QPS、在线人数、浏览、请求数)、关键操作处理延迟信息等

C、业务上线前(进行可运维性评审):

了解业务的真实现状,评估架构的单点、高可用性、可扩展性、容错性等,签订SLA协议。比如,存在某个不可改变的单点服务,那么我们要达成一致,运维对这个单点服务无法保障高可用性。

1、了解项目的物理架构,配置文件管理,部署,变更复杂度,可用性,容量,容错处理,可监控性等等,尽量早一点排除一些问题。

2、根据项目的发展规划,重要级别等,申请相应的基础设施资源。

D、业务上线中:

1、配置和环境标准化/文档化

2、重复劳动自动化/脚本化

3、完善监控和日志

E、业务上线后(项目运营阶段):

1、时常盯着监控数据,获取基准监控数据

2、跟进业务运营状况,获取真实用户信息(有无异常反馈?推广效果如何?有没有大推计划?)

3、性能/利用率追踪

4、事件管理/故障管理/问题管理

F、项目下线(暂时忽略)

1、代码备份和数据备份

参考资料:

参考链接1:

http://blog.csdn.net/xlh1991/article/details/41632073

附一、一个优秀的运维工程师,应该具备这样一些素质:

1、关心线上业务系统。主要包括监控的全面覆盖和对异常变化的警惕。

2、对于出现的问题能找到解决方案。不管是和供应商一起查找问题,还是用搜索引擎查找解决方案。

3、持续的自我学习。持续学习新的技能点,并且要做到对IT/运维技术的趋势有持续的追踪和了解。

4、容量管理。要思考业务后续的发展需要的资源。

5、性能监控。业务响应慢了,你如何从各种子系统中排查出瓶颈。

6、工程技术上的解决方案。比如如何更好地为业务提供基础设施?怎样优化现有的监控系统。

业务运维是业务和各种支撑资源的纽带,做业务和资源的粘合剂

业务运维不要仅仅做执行单位,而是要做能够帮助业务发展的、能够提高业务运行质量的部门

附二、基础运维/平台运维:

基础运维维护的工具也可以认为是一个个的业务。那自然也需要关心用户的使用情况:

基础运维不光是业务运维,还要充当产品经理、产品运营等角色

  • 挖掘用户的真实需求
  • 考虑用户体验
  • 用户的使用频率和满意度
  • 业务的可用性监控和记录
  • 业务的性能、效率和成本

IDC data center PUE:

https://www.equinix.nl/company/green/green-data-centers/pue-metrics/

基础运维(平台运维)工作内容归纳

需要做的和能不能做