故障频出后,互联网巨头要更重视“运维”作用
要建立可靠的故障响应机制。
近段时间以来,一些知名应用程序、App出现了技术故障,导致了很多用户无法正常使用的情况发生。
11月12日,阿里云出现故障,导致阿里系多款App无法正常使用。11月27日晚,滴滴App遭遇系统故障,导致大量用户无法正常登录打车。12月3日晚,腾讯视频出现网络故障,有网友反馈出现首页无法加载内容、VIP 用户看不了会员视频等情况。
公开信息显示,上述提到的技术故障并非来源于“网络攻击”。比如,阿里云在12日确认故障原因与某个底层服务组件有关。滴滴在28日的道歉声明中就表示,“初步确定,这起事故的起因是底层系统软件发生故障,并非网传的遭受攻击”。
一些评论认为,互联网巨头相继出现技术故障,与他们推动“降本增效”有关。当然,这一说法没有得到上述企业的确认。在丁科技网看来,拥有庞大用户数的互联网服务、App,应该通过上述事件得到警醒,在运维保障方面要做更大的投入。
一方面,现在整个社会进入到互联网、移动互联网时代,云服务、社交、支付、打车、外卖等已经渗透到人们生产、生活的方方面面,一旦这些服务提供商出现技术故障,将极大冲击人们熟悉的生活方式,让整个社会失序。
另一方面,技术故障对于互联网服务提供商来说,也是不可承受之重。除了直接的经济损失之外,技术故障往往还会带来企业信誉上受损,而后者很难在短期内得以修复,这将影响客户合作订单和用户的忠诚度。比如,一旦某个云服务频繁出现故障,客户将很可能考虑更换服务商,以避免可能的数据损失;一旦视频、娱乐类App频繁出技术故障,也就会很难吸引用户进行充值会员消费。
因此,丁科技网认为,对于大型互联网服务提供商而言,一定要高度重视技术运维的作用,不能认为运维部门不创收就是企业的负担,是可以大幅压缩的企业成本。同时,要建立可靠的故障响应机制,既要有充足的技术专家储备,还要有反应迅速、流畅的处置流程,确保在故障发生的第一时间就能精准、快速完成处置,将企业损失和用户损失降低到最低限度。