携程瘫痪12小时“因员工错误操作” 错失上千万收入
5月28日11时起,携程官网及APP无法使用,直至当天23时29分,才全面恢复正常。经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。
在携程宕机之前,5月份以来,已有网易、支付宝钱包等网络服务出现短暂的无法正常使用的现象。其中,5月11日晚上8时许,网易突然出现大面积服务瘫痪问题,网易新闻、云音乐、易信、有道云笔记等多款移动应用均无法正常刷新,网易名下的游戏也全线瘫痪,用户长时间无法刷新和登录。但第二天凌晨2点就已经恢复。5月27日17时左右,支付宝钱包出现故障。支付宝1小时后就找到故障原因,是杭州萧山一处光缆被挖断。
而携程此次宕机,从发现到全面修复超过了12个小时。互联网企业宕机,修复时间如此长的情况,比较少见。
为什么恢复时间那么长?携程从技术角度对新京报记者解释道,携程后台是一个由SOA(面向服务)架构组成的庞大服务器集群,一个页面背后由上千个应用子系统以及上千个Web Service组成,每个应用子系统和每个Web Service之间存在着相互调用的依赖关系。事件发生后,携程除需要恢复生产服务器上的执行代码,还需要确保应用子系统和Web Service的功能正常,以及两者间的调用关系正常执行。这种验证性的操作需要反复地、持续性地调试。
为杜绝此类事件的再次发生,携程表示,已经在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损。
除了消费者,携程自身受到的影响也非常惨重。以携程今年第一季度财报的数据计算,净营收23亿元,28日携程相当于每小时损失106.5万元的生意。以12小时计算,携程大约少了1278万元的业务收入。
■ 分析
互联网脆弱 企业该做什么?
不到一个月的时间里,主流互联网企业中,就有网易、支付宝、携程的服务器或系统先后“倒下”。对于互联网赖以生存的网络、设备、技术可能变“脆弱”的情况,企业应该怎么做?
安天首席架构师肖新光告诉记者,注意备份、备灾非常重要。通常来说,大的互联网企业都会有比较成熟的备份机制和应急预案等,通常可以做到小故障不影响用户体验(甚至让用户感知不到),局部故障可以快速恢复等等。
对于数据,热备份和冷备份都已经是较为成熟的技术。通俗而言,热备份是至少两台设备同时进行相同的数据操作,如果一个设备出现故障,可以快速切换到备用设备。冷备份是指,每隔一段时间进行一次数据复制,来确保一旦出现故障,至少可以恢复到接近当前的某个时刻,但恢复需要更多时间。
技术与方法等是相对比较成熟的,但同时也要看企业对整个系统的设计是否得当、投入是否足够、管理是否有效。目前企业的相关投入更多对应的是一些自然事故,如服务器损坏、线路中断、包括机房遭遇水灾、火灾等,但对于恶意攻击、内部犯罪等防范的能力和防范投入往往还有一定欠缺。
对于重特大事故和事件(如长期策划的蓄意入侵攻击,特别是内部的攻击),从最开始的一片混乱到有效处理,可能需要更长的时间。多数企业缺少对最坏状况的演练。同时,如果立足于防范极限情况,也需要付出更多的日常成本。(赵嘉妮)