3、智能分析与诊断
京东的智能分析与诊断涵盖4部分重要的内容,数据库监控指标采集、诊断分析、故障自愈、趋势分析:
(1)监控系统
监控系统为数据库管理提供了精准的数据依据,能够让运维人员对生产服务系统运行情况了如指掌,核心的监控指标包含:OS负载、MySQL核心指标、数据库日志等。通过分析获得的监控信息,判断被监控数据库的运行状态,对可能出现的问题进行预测,并给出优化方案,保证整个系统稳定、高效。
京东的分布式监控系统采用被动模式,server端和proxy端均做高可用,防止单点故障。以下是整体架构和流程图:
(2)监控性能分析
数据库性能智能分析,主要是对数据库监控数据的二次分析,排除安全隐患。在实际的生产中,有些隐患没有达到设置的报警阈值,处于一个报警的临界点,其实这种情况是最危险的,随时可能爆发,为解决这些隐患,我们通过对监控数据的环比、同比、TOP指标等方面进行分组汇总分析,提前发现隐患。