我们已经准备好了,你呢?

2026我们与您携手共赢,为您的企业形象保驾护航!

域名系统(DNS)是一个基础架构,在操作中起关键作用,提供两个标识符系统之间的连接和转换:服务名称(域名)和IP地址。大多数互联网应用程序,例如在线付款,视频会议,电子邮件等,都需要依靠域名系统来实现网络资源的地址和定位,并且是互联网业务访问的入口。

2021年10月4日,一个社交网站经历了大规模的停机时间,全球超过8000万用户影响了6个小时以上。停机时间的主要原因是DNS服务故障。可以看出,域名系统的稳定性在整个安全和稳定系统中起着至关重要的作用。域名分辨率服务的安全,稳定的操作是互联网互连和数字经济的安全,稳定运行的基础。

当前,阿里巴巴云提供了一系列一站式域名分辨率服务产品,涵盖了公共域名分辨率,内部域名分辨率,全局流量调度,移动分辨率和域名分辨率方案,用于专有云。在云上部署服务的阿里巴巴云用户具有其操作和维护的核心元素。一旦DNS解决方案服务波动,他们的业务将受到影响。特别是对于游戏和金融行业的企业,它们对分析服务质量的要求非常高。

简而言之:超过十毫秒的云DNS分辨率服务的服务延迟波动将直接影响业务服务和用户体验。由于阿里巴巴云DNS的平均每日访问量为万亿,我们如何确保有效的操作和维护以及大规模DNS分辨率服务的高可用性?本文将讲述该领域阿里巴巴云DNS团队的思想和实践。

从“黑屏”到“白屏”

为了确保业务稳定建设,阿里巴巴集团提出了“ 1-5-10”的目标,即在1分钟内发现,在5分钟内进行定位,并在10分钟内解决。一旦目标可用,就很难实现。

DNS服务本身具有自己的管理特征。目前,该小组的大多数业务都在容器服务上运行,并通过标准调度系统实现生命周期管理。但是,由于其高性能操作要求,“解析器服务器”仍在物理服务器上运行。一旦服务器迁移和变化发生,每天累积的零散的变化和一些维修措施很可能会导致服务问题。因此,需要一个完整的平台来管理服务器状态以实现可控和操作维护。只有标准化的服务配置才能实现安全可靠的自动化过程管理。

阿里云解析域名多久生效_阿里云域名解析cname_阿里云服务器域名解析

为了确保高层服务符合稳定目标,DNS系统作为基础基础设施的重要组成部分,必须满足更高的稳定性要求。在分析服务方面,除了实现高可用性建筑设计和部署外,服务例外还需要在几秒钟内定位和恢复。传统的操作和维护方法无法再满足我们当前对稳定性的需求,因此需要一组操作,维护过程和平台来收敛操作和维护操作,并逐渐将操作和维护从传统的黑屏转换为白屏,从脚本操作,维护以及自动化或智能操作和智能操作和维护。

DNS操作和维护平台的开发和演变

阿里巴巴云DNS团队目前主要负责权威云分析,阿里巴巴云用户递归分析,互联网公共递归分析和小组分析。

随着用户规模和服务次数的不断增加,当前业务平台的平均每日分析量超过了2万亿元。除了高性能分析系统以及数据管理和控制系统外,业务平台还具有三个部分:统一的操作和维护平台。如今,我们正在共享“统一操作和维护平台的相关内容”,包括一些关于操作和维护平台稳定性构建的想法,并与云服务的某些特殊性结合在一起,以便每个人都可以更深入地了解该领域的阿里巴巴云DNS团队所遇到的当前问题和相关实践。

阿里云域名解析cname_阿里云解析域名多久生效_阿里云服务器域名解析

回顾整个阿里巴巴云DNS操作和维护平台的施工过程,可以分为三个阶段:标准化施工阶段,自动化施工阶段和智能施工阶段。这三个阶段不是完整的顺序,而是相互交织的,不断促进整个平台的连续演变。

阿里云解析域名多久生效_阿里云服务器域名解析_阿里云域名解析cname

标准化施工阶段

操作和维护系统标准化构建阶段主要关注三个部分:资产数据管理,服务管理和基线管理标准化,目的是解决在线数据不一致,配置不一致和服务管理过程不一致的问题。

自动化施工阶段

在自动化过程构建阶段,阿里巴巴云DNS操作和维护平台还吸收了内部系统构建和集成功能的丰富经验,例如SOP()管理,自动化任务编排和过程管理。

通过定义标准SOP,每日处理过程被融合到操作和维护平台的集中管理,从重新启动服务的过程到计算机室的部署过程。对于自动化流程,通过“集成的任务编排和过程执行模块”来实现任务的批量执行,从而降低了人类操作带来的变化风险,与此同时,它可以与标准化构建阶段实现的基线管理系统相关联,以实现异常的变化和报告。此外,自动化构建提供的框架功能还集成了任务批准和日志审核功能,这些功能可以实现安全可控制的任务过程管理。

智能建筑阶段

目前,操作和维护平台正处于从自动化到智能的转型阶段。服务的稳定性不再限于运营和维护操作的自动化,而是通过集成一系列输入来实现在线风险预测和自动处置而实现的。这也是解决稳定性1-5-10的要求并满足云用户服务稳定性的要求。

如果故障需要手动访问,则通常需要5分钟甚至更长的时间从警报生成到接收到实际处理。因此,智能操作和维护是必须在当前开发阶段实施的手段。在施工阶段,我们深深地认为智能操作和维护是服务稳定与安全性之间的游戏。如果无法保证智能操作和维护的准确性,它将带来更大的风险(2021年10月,社交网络网站的大规模离线失败是由自动化操作造成的服务故障)。因此,我们将从单个场景开始并逐步将其推广到其他过程,从而实现智能结构。同时,我们将考虑如何在设计阶段提供良好的服务保证。每种情况通常都将至少包括两层保证策略,以使服务能够可靠,稳定。

DNS操作和维护平台的典型应用和成就

“撞机机治理”功能是智能操作和维护构建中阿里巴巴云的DNS操作和维护平台的典型情况。

稳定问题的典型情况是“ ”(挂起)。与崩溃或下降不同,服务器篡改意味着有些服务可用,有些则没有可用。对于DNS服务,危险比停机时间更有害,因为在DNS服务部署模式下,DNS服务器必须发布路由(支持BGP+ECMP群集)并提供DNS分辨率服务。

通常,DNS分辨率服务和控制接口不可用,但是路由服务是正常的,并且群集不会自动删除此服务器以进行流量迁移。在DNS服务器机场场景中,大量查询流量以访问篡改的服务器将导致严重的服务,并且服务器无法直接登录以执行操作和维护隔离操作。整个篡改因定位而失败,处理到恢复时间太长,这将对用户的业务造成严重损害。

阿里云服务器域名解析_阿里云解析域名多久生效_阿里云域名解析cname

为了减少篡改对用户业务的影响,并实现无需手动干预即可自动隔离篡改故障的目标,操作和维护平台集成了一组完整的处理流程以解决此问题:通过自动监测,发现,定位和处置,无需手动干预即可自动隔离。自该系统启动以来,它已经获得了100%的在线颠覆机场场景的覆盖范围,并自动完成了500多次异常检查,并正确处理了14次篡改失败。通过自动处理平台,手动检查的成本大大降低了,并且在30秒内还会减少故障隔离时间,从而真正实现了无灵感的用户服务处置。

阿里云解析域名多久生效_阿里云域名解析cname_阿里云服务器域名解析

结论

“如果您想流远,必须疏通源。”操作和维护平台的构建是一个连续优化和经验积累过程的过程。平台构建的关键是逐渐收敛用户操作并标准化流程。只有通过标准化的环境 +严格的服务管理,我们才能实现整体稳定的操作。同时,自动化和智能操作和维护在降低成本和提高效率方面的有效性也促使团队不断探索和涵盖更多的业务场景,从而使阿里巴巴云的DNS DNS解决方案更加稳定和可靠。

目前,DNS操作和维护平台的操作和维护体系结构以及模型正在逐步探索商业输出模型。将来,可以向用户输出DNS操作和维护平台以及阿里巴巴的高性能分析管理和控制服务,从而为客户提供与云相同的服务经验和操作质量。 (文本结尾)

阿里云域名解析cname_阿里云服务器域名解析_阿里云解析域名多久生效

你可能想看它

1.2。

3。

4。

5。

结尾

二维码
扫一扫在手机端查看

本文链接:https://www.by928.com/8724.html     转载请注明出处和本文链接!请遵守 《网站协议》
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。

项目经理在线

我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

13761152229

上班时间

周一到周五

公司电话

二维码
微信
线