封神-核心功能 | 钉钉告警+数据网关
2021-06-02 15:01 阿里云云栖号
简介: 封神-核心功能 | 钉钉告警+数据网关
1. 开发背景1.1 用户痛点
①租户侧运维能力弱
问题:租户侧,客户没有有效途径,及时地获取实例级的状态、性能、容量的数据。
现状:每日固定时间,驻场需要人肉收集数据,钉钉定时推送给客户。
②问题排查效率低
问题:应用业务有问题,云平台产品正常,客户并不认可,需要帮助客户解决问题。
现状:发现应用实例出现性能、容量被打满的问题,这个排查过程往往冗长, 效率很低。
③监控能力缺失
问题:云平台监控不全,容量管理、性能管理等报表能力缺失。
现状:驻场需要通过大量人肉巡检,或者编写脚本。
④监控 方式时效性低
问题:业务侧总会优先于应用与云平台感知到故障,运维非常被动 。
现状:客户发现问题,通知应用,应用检查后,再溯源到云平台,排查链路串行并且低效。
1.2 解决方案
①保障业务稳定
通过云产品的服务能力的变化情况及业务仿真模型的建立,提前预知客户业务健康度,低于基线后便会触发告警。
②SLA化展示
触发阈值自动报警,量化产品健康状况。
2. 开发设计2.1 系统架构
图1:系统架构图
封神系统架构如图1所示,分为CLIENT与SERVER端两大模块。
- CLINET端:部署在经典网铜雀容器内,通过定时任务控制去采集云内各产品数据。
- SERVER端:部署在VPC内ECS上,系统框架为FLASK,分为数据处理与数据存储两大部分。
- ①数据处理是指通过提供API接受CLIENT的数据并进行入库操作以及数据的前端展示。
- ②数据存储是指借助阿里云RDS数据库,对数据进行持久化操作作。
2.2 业务架构
图2:业务架构图
封神业务架构如如2所示,分为五大板块。
- 姜子牙:租户侧告警,主要包括ECS、RDS等云产品实例性能以及业务相关告警。
- 申公豹:运维侧告警,主要包括云产品健康状态、水位容量等相关告警。
- 雷震子:硬件告警,主要包括坏盘,物理机带外等告警。
- 比 干:安全告警,主要来自云盾相关安全类告警。
标签:
封神
官方微信公众号:掌酷门户(wapzknet)
相关资讯
新闻热点
精选美图