
7月19日星期五上午12点09分,网络安全公司CrowdStrike发布的软件更新关闭了850万台Windows电脑。这一更新导致了“蓝屏死机”,延误了航班、医疗服务等。
在杜克健康,这一天就像一部医疗剧的情节一样展开,但数百名IT员工是恢复医院运营的英雄。
杜克健康公司首席数字官杰弗里·费兰蒂博士说:“我们总共有6万台机器运行该软件,4万台安装了坏补丁,其中2.2万台出现蓝屏。”费兰蒂说,1.8万台安装了错误更新但没有蓝屏的电脑在重启后也会出现蓝屏。
费兰蒂说,在发现故障后不久,他们就启动了HICS——“医院事故指挥系统”。他说,HICS通常在发生灾害和紧急情况时激活。“这是我们第一次在It危机中启动该系统。”
杜克健康技术服务公司(Duke Health Technology Services)的IT分析师塞尔吉奥?查韦斯(Sergio Chavez)已经在杜克大学工作了8年。他说,在过去,“我们有过一些小问题,但没有像现在这样。受影响的设备有2.2万台。”他希望这是“一生一次的盛事”。
首先,费兰蒂说,他和他的团队试图“确保我们不必关闭任何诊所,我们的急诊室可以看到病人,(和)我们的紧急护理可以看到病人。”
在这一点上,他们成功了。据费兰蒂说,仅仅在最初的几个小时里,杜克大学就不得不将当天约20%的手术重新安排到下一周。
他们是怎么修好蓝屏的?
在宕机后的两小时内,CrowdStrike确定可以通过删除包含软件更新的文件来解决蓝屏问题。对于许多企业来说,这包括将计算机置于安全模式,打开命令行,打开存储文件的文件夹,然后删除文件。
在医院里,情况会变得复杂一些。
文件被加密是为了额外的安全,所以“这些机器必须由IT专业人员亲自接触,他们可以解密它们,进入目录,删除他们必须删除的文件,然后重新启动机器,”费兰蒂解释说。
查维斯说,一旦确定四万台电脑必须一台接一台地维修,就会有“任何愿意来帮忙的人的登记表”。
那个周五早上6点左右,“每个人都愿意伸出援手,”费兰蒂说。
“这是一种技术含量较低的方法,但我们让他们四处走动,在所有对运营至关重要的机器上贴上黄色便利贴,”他说。“然后,我们有100多名IT人员四处修理这些机器,让关键的机器首先得到处理,每个部门的机器都恢复了50%。”
他说,每台机器需要5到8分钟才能修好。
除了修理成千上万台机器外,IT团队“还在服务器的后端工作,以确保电子健康记录正常工作,成像系统正常运行,”费兰蒂说。这样,当蓝屏固定在个人电脑上时,在这些电脑上运行的系统和应用程序也会正常工作。
在停电中幸存下来需要一支军队和对过去的窥视
到中午,杜克大学最新的警报显示:“大多数关键系统已恢复在线,近三分之二的电脑/笔记本电脑已恢复正常。”
整个周末,整个IT部门的300多名员工参与了这次行动。由于“整个周末都有一大群人全天24小时在那里,”费兰蒂指出,“在72小时内,我们基本上把所有的机器都修好了。”
费兰蒂说,当这种规模的中断发生时,“你必须求助于旧的做事方式。”他指出,临床医生可以使用ipad和iphone访问电子健康记录。他说,这种方法奏效了,即使“他们获取信息的方式可能与他们在日常工作中习惯的方式有所不同”。
医院在例行更新期间也会有停机时间,如果需要,员工们准备好用笔和纸来照顾病人。费兰蒂说这很有帮助,但这次停电不一样。“它的规模、规模、范围——这次活动的持续时间比我们以前见过的任何一次都要长。”
他赞扬了临床团队在中断期间的应变能力。“虽然我们可以提供安全护理,但这种护理需要更长的时间,工作更困难。这对临床团队来说是一项额外的工作,他们真的迎接了挑战。”
北卡罗来纳大学医疗中心表示,其IT团队也“迅速更新了受影响的电脑,我们的运营仍在正常运转。”这些IT团队整个周末都在继续工作,以解决任何遗留问题。”
WakeMed表示,它没有使用CrowdStrike,也没有受到宕机的影响。
后
查韦斯指出,虽然杜克健康中心的大多数机器在周末都修好了,但一些设施已经关闭。在这种情况下,周一早上遇到蓝屏死机的员工会“打电话报警,问题会立即得到解决。”
杜克健康公司正在研究这一事件,重点是如何进一步为未来类似的停电做好准备。但费兰蒂确实想知道,“这样的事情怎么会发生在一个拖垮了多个行业,而不仅仅是医疗保健行业的供应商身上?”
他说,CrowdStrike的一份“根本原因分析”对他们来说是很有必要的,他们需要“创造性地思考如何防止这种情况继续发展”。
CrowdStrike在其网站上表示,正在加强各种形式的测试,并“实施内容更新的交错推出,同时密切监控性能”。错开推出有助于减少错误更新的广泛影响。
7月22日,美国众议院国土安全委员会致函CrowdStrike首席执行官乔治·库尔茨,要求他在网络安全和基础设施保护小组委员会就此次宕机事件作证。7月30日,股东们在德克萨斯州奥斯汀对该公司提起集体诉讼,声称CrowdStrike称其技术“经过验证、测试和认证”,但在推出更新之前没有进行适当的测试。
据估计,这次停电给财富500强公司造成了54.1亿美元(240亿令吉)的损失。医疗保健是受影响行业之首。-新闻与观察家报(罗利)/论坛报新闻社
×




