宕机现象


全球知名科技公司的云宕机事件不断爆发,全球有影响力的云服务提供商均发生了“宕机事件”,包括:谷歌云、AWS、微软Azure、阿里云、腾讯云等,几乎没有企业幸免。那宕机是什么意思?引发宕机的原因有哪些?如何防范?下面就因微博热点导致宕机为例,讲一下宕机的原因与防范措施。

实际上,宕机是IT行业术语,宕为英文down的音译。所谓宕机,是指网络空间的信息系统无法提供正常服务,出现卡顿甚至“停摆”现象,用户的直接体验就是系统长时间无响应,比如无法正常访问、搜索无响应、无法发帖等。

“造成系统宕机的因素有很多,比如机房供电故障、服务器硬件崩溃、系统处理能力不足、遭受网络攻击等。”北京理工大学网络攻防对抗技术研究所所长闫怀志。

无论是失误,还是系统的漏洞,其实最终都是以窃取数据或者篡改为目的的,即使有明显的政治因素,但这类行为,包括中美贸易战以来集中出现的互联网企业宕机基本上也都是为了得到数据。

也就是说,国内外云服务公司大规模宕机的背后,网络安全问题虽然有很多,但对企业来说影响最大的还是数据泄露问题。比如:前段时间公众比较关注的酒店数据泄漏事件。宕机不是最可怕的,最可怕的是数据丢失。对企业来说,数据的安全问题应该是企业最要关注的一個问题。

突发热点事件引发的微博服务器宕机事件,通常是由于瞬间访问量暴增,导致后台服务器不堪重负,只好“一宕了之”。资料显示,微博系统服务器的访问量上限被设计为预估平时流量的峰值,相关服务资源均依此配置。一旦突发事件导致访问量超出此峰值,系统将无法承受,宕机也就在所难免。

“单就技术层面来说,预防微博服务器宕机不存在太大问题,只要扩充容量即可。而微博服务器宕机事件频发,原因主要有两方面。”闫怀志解释道,一是微博服务器部署规模及其处理能力受限。很多公共服务平台的平时流量基本稳定,基于成本考虑,在保持适度冗余处理能力的前提下,微博运营商不会主动去租用或配置大量超出日常数据处理需求的计算和存储资源。服务器扩容多了,如果没有流量支撑,就会造成资源闲置及成本增加。另一方面,微博流量具有瞬间峰值高、持续时间短的特征,在热点事件出现时表现得更明显。微博热点流量较难预测,使得微博运营商在扩容问题上陷入两难境地:扩容多了易亏,扩容不足易挂。

在闫怀志看来,热点流量虽较难以预测,但不等于不可预测。只要能预估出流量峰值范围,就可通过定时扩容和提供弹性计算存储资源来从容应对。很多平台在这方面都有过应对流量突增的成功案例,比如应对“双十一”时的峰值流量。明星离婚等网络突发事件,虽不受微博运营商控制,但微博运营商应该可通过舆情监控等手段感知即将到来的流量大潮,通过启动应急预案(比如临时租用“备勤”服务器)来应对。

“此外,微博宕机不能排除的另一个可能,这或许是某些微博运营商的营销或推广策略。”闫怀志说,因为微博宕机本身也是个突发热点,客观上会提升微博关注度。更有甚者,某些明星经纪公司在“娱乐至上、流量为王”的观念驱使下,联合微博运营商人为制造这些宕机事件来吸引公众眼球、提升明星知名度,也不是没有可能。毕竟,微博已经历了多次的宕机,理应具备相当的应对经验。再出现新的宕机事件,到底是运营商无能为力还是有意不为,有时还真要打个问号。

首要考虑的就是数据存储时的安全性。只有确保从源头上减少故障,或发生故障时有足够时间和方法进行应对,宕机事件的影响才可能大幅度减小。

我们重要的数据,除了备份到磁带上,也要在磁盘上做好备份。例如:你可以使用阿里云,也可以使用腾讯云,当然前提是做好云平台的数据备份保障。当其中一个发生故障时,可以有一个正常备用的数据中心接替工作,并目在云端拥有足够的容量来做数据转移。不管采用何种备份方案,重点还是要把内部数据部署在一个高可用性的受保护的数据存储地方,确保数据库无误。

一般情况下,小微企业因为技术能力有限,实力水平有限,可能会将所有服务放在同一品牌的云服务上,多数中等企业,最好选择不少于两个厂商同时服90当然,大企业更不用说,比如:腾讯、百度、阿里巴巴等都有自己的云。张百川补充道:对于数据的实时性要求没有那么高的中小企业,主要就是做好备份工作。

此外,无论企业大小,都需要去做防止黑客攻击的工作,这就需要做一些相关的设施建设,比如自己建立一个机房,或者租赁其他厂商的机房,总之一定要做好安全防护。

“依靠现有前沿技术,有可能避免或缓解宕机问题。”闫怀志解释道,主要的手段就是构建弹性伸缩业务系统,辅以人工智能预测和业务持续性监控,来保障峰值服务正常运行。比如,通过人工智能技术来预测网络突发流量,利用云计算弹性计算资源平台来实现快速扩容甚至实时扩容,以应对高峰流量。

据报道,商用云服务提供商目前可在宕机后数秒内探测到服务不可连接,然后在90秒内实现扩容,恢复运行中断业务。这种按需部署的服务器配置方式,既可显著降低网络平台服务器宕机的风险,又能很好地利用存储计算资源,实现双赢。

此外,闫怀志指出,还可采用“降级”运行策略,即将服务器的业务拆分为若干相对独立的业务,各业务之间共享数据库。一旦服务器出现过载,可启动降级策略来“丢卒保车”,至少保证核心业务能正常运行。比如,若微博热搜榜崩溃,可维持评论、转发等核心功能的正常运行。

“另一种有效的应对方式是利用边缘计算技术。”闫怀志说,通过在网络边缘实现数据分布式本地处理,可显著降低访问数据的汇聚和传输总量,这不仅能缩短用户响应时间、提升用户体验,还能大幅降低中心节点的数据传输和处理压力,也是一条应对宕机的新路径。

以上就是关于宕机意思,引发宕机的原因与防范措施的知识解答,一旦在宕机中出现问题,该如何第一时间去补救?具体问题还需要具体分析,如果是数据泄露的话,建议立即通知所有的用户,修改自己的密码等敏感信息。最重要的还是要提前加强防护措施:第

一,加强网络安全性的建设,如果你的企业能被黑掉,那么一定存在安全漏洞,那就提前及时把漏洞排除掉;第

二,增强预防举措,比如:启动防火墙的抗拒绝服务。