上海启嘟渡科技商贸有限公司
SEARCH

与我们合作

我们专注提供互联网一站式服务,助力企业品牌宣传多平台多途径导流量。
主营业务:网站建设、移动端微信小程序开发、营销推广、基础网络、品牌形象策划等

您也可通过下列途径与我们取得联系:

微 信: wxyunyingzhe

手 机: 15624122141

邮 箱:

蚂蚁智能监控

更新时间:2025-01-06 23:36:49

AntMonitor 简介

AntMonitor是蚂蚁集团的智能监控系统,通过构建面向监控可观测数据的实时、稳定的数据链路,为技术风险大脑及体系提供实时、稳定、可靠、丰富的可观测数据与告警服务。

系统架构

系统架构上,AntMonitor可以分为产品、告警、计算和存储等四个子系统,各个子系统可以独立提供服务,又相互协调配合,承担起了蚂蚁技术风险的数据底盘角色。

产品系统

产品系统直接为用户提供各项可视化服务,包括monitormeta和monitorprod两个组件。

计算系统

计算系统提供一体化的数据采集、清洗、聚合与数据生命周期管理服务。

告警系统

告警系统基于用户配置的告警规则对计算产出的指标数据进行巡检,产出告警事件并推送给订阅者。

存储系统

存储系统为AntMonitor提供时序数据的读写服务。

稳定性建设

监控系统在整个蚂蚁的体系架构内是一个特殊的角色,它在承载所有业务系统的可观测与告警能力的同时,还为容量、自愈、故障应急等技术风险其他子域提供着数据服务。

稳定性架构

稳定性架构是建设稳定性中最重要的一环,一个经过缜密设计的稳定性架构,可以使我们后期尽可能优雅从容地处理各类稳定性问题,而不是疲于奔命地打地鼠。

容灾架构

前文简要提及了架构去单点问题的解决思路,这足以覆盖日常可能发生的节点宕机、网络抖动等小规模故障场景。

城市级容灾

对于高保的业务域租户,AntMonitor提供城市级的容灾能力。

架构单元化

架构单元化,可以理解为AntMonitor内部的集群管理。

运行时保障

设计并实现良好的稳定性架构,就像种下了一棵基因优良、枝干笔挺的树苗,但要让它长得枝繁叶茂,还需要平时地照看、灌溉与修剪,这就是日常的运行时稳定性保障。

自监控

提起监控,总有不少看似悖论的话题被提起,例如监控系统如何监控自己?

数字化运营

数字化运营,顾名思义,就是针对监控本身,做好全方位的数字化衡量工作。

配置管控

「沙盒拦截」

经验告诉我们,变更往往最容易给系统引入稳定性问题。

总结

系统的稳定性建设是一项长期投入的工作和不断精进的过程。

多重随机标签

猜你喜欢文章

QQ客服 电话咨询