首页 > 科技 >

京东数据库智能运维..建设之路(4)

2018-08-28 12:01:40 网络整理 阅读:182 评论:0

京东数据库智能运维..建设之路(4)

(3)故障自愈

京东数据库智能运维..建设之路(4)

故障出现的形态千奇百怪,而最核心的内容依赖于监控的辅助分析,如何提供最为精准的信息,所做内容如下:

4、智能切换系统

京东数据库服务器的量级较大,,会导致出故障的概率相对提高,同时对系统稳定性的要求也较为苛刻。因此为确保实现数据库高可用,保证7*24小时的持续服务,我们团队自主研发了数据库自动切换..,实现了自动和半自动两种切换方式,实现了按单集群级别、多集群级别、机房级别等多维度的场景切换。切换过程包含监控的修改、资产信息的修改、备份策略的修改、主从角色的修改等,一键化完成,避免人为因素带来的二次故障。

(1)分布式检测

作为切换系统的核心组件,分布式检测功能主要解决系统容灾方面的问题。按照京东数据库服务器多数据中心部署的特征,独立的数据中心各部署了一个检测节点,并通过特殊标识的接口域名区分。当发生切换操作时,切换系统会根据传入的故障主机IP等信息,随机选取两个机房接口执行调用,探活操作如果发现有一个节点主机存活,那么认为主机存活;如果发现两个节点都探测为宕机,那么认为主机宕机。

(2)Master故障切换

主库实例故障,切换系统会首先通过分布式检测系统检查实例存活状态,确认宕机后将根据基础信息中的实例切换标识,选择使用自动切换或手动切换,两种切换方式原理相同:先在切换系统上创建切换任务,手动切换需要DBA执行切换按钮,切换操作会通过insert方式插入数据以验证实例运行状态,避免实例夯住和硬盘只读的情况。如果没有存活的从库,则放弃本次操作并以邮件和短信的方式通知DBA。新主库是按照先本地(先连接数少,后QPS负载低),后异地的原则选择,执行切换成功后将变更相应元数据信息,示例如下:

某一主四从的集群,主库 10.66.66.66:3366故障,需要切换,如下:

京东数据库智能运维..建设之路(4)

相关文章