我认为主要是开发和运维的边界划分问题。例如运维部分负责到容器云K8S层还是负责容器云的宿主机OS?如果只负责到OS,那和传统运维区别不大。如果负责到容器云平台层(不负责上面的应用),那就需要重点考虑容器云的可视化监控和日志体系构建。
收起首先容器云平台的运维和iaas云平台的运维还是不一样的,iaas负责好vm、存储、网络等基础资源就好了,而容器云平台以应用为中心,即使是应用本身的问题,有时也会连带牵扯到容器服务。
所以建立一套完善的运维保障体系还是很有必要的,可以考虑如下方面:
平台可观测性:
建立完善的监控、告警体系;
存储系统、平台及应用日志;
建立日常巡检制度等。
以应用中心:
支持应用灰度发布能力;
支持应用版本控制及回滚能力;
应用跨AZ、多活高可用等支持能力。
以及应急演练、故障预案等配套方案。