CrowdStrike导致的Windows系统大规模蓝屏事件:看这一篇就够了!

王福强

2024-07-19


福强老师尝试从三个视角跟大家聊聊这个事情的始末以及个人的一些观点:

  1. 技术基础设施视角
  2. 组织管理视角
  3. 英语学习视角

技术基础设施视角

首先,Windows大规模蓝屏是怎么回事?

首先解释下什么是蓝屏, Windows系统蓝屏现象从Windows早年的Windows95/98/Windows Me/Windows XP一直延续到现在的10/11等版本,蓝屏代表了系统崩溃,操作系统不可用,用户只能干瞪眼或者重启,之前的工作状态有可能丢失甚至损坏。

2024年7月19日,也就是今天,全球至少几千万Windows设备出现蓝屏,导致系统不可用,全球很多家航空公司、银行、酒店、星巴克、超市等商业与基础民生机构无法提供日常服务,很多地方近乎瘫痪,所以,此次事件不可谓不严重,甚至可以说是有些致命。

其次,大家关心的肯定是,什么是CrowdStrike以及为什么它会导致Windows系统大规模蓝屏?

CrowdStrike是一家互联网安全公司,纳斯达克上市,股票代码CRWD,因为此次致命事件,导致CrowdStrike股票一度下跌了21%。

那CrowdStrike是怎么导致这次大规模Windows系统蓝屏的呢?

CrowdStrike有个典型业务叫Endpoint Security,这个Endpoint大家就可以认为是一台台安装了Windows的终端电脑,此次事故源于CrowdStrike的一次系统更新,阴差阳错的情况下,因为更新下发是通过Azure云,而Azure云又出现了短暂的故障,导致下发的更新文件不完整,而CrowdStrike的Windows客户端软件又没有做完整性检查(checksum),直接就执行了更新,从而导致所有安装了CrowdStrike安全客户端的Windows操作系统全部蓝屏,也就是直接崩溃不可用。

这还只是终端客户,如果有的企业在服务器端也使用了Windows操作系统以及CrowdStrike安全软件,那么,有可能影响更大,恢复时间会更长,损失有可能更大。

不过,因为CrowdStrike的客户大部分在海外,所以,对于中国大陆来说影响不大。

而且,中国大陆的互联网系统因为这些年的技术路线走向也跟国外不太一样,所以,受这次事件的影响应该不大。

一个是国内只有少数企业客户会用Windows系统作服务器端操作系统,大部分是Linux,所以,服务器端受影响面会很小;

另外一个就是管理端软件大部分是基于Web,而Web应用的访问可以轻松跨端,如果Windows电脑崩了,可以换MacOS/Linux甚至iPad等终端,所以,后备方案充足;

最后就是国内现在的用户端大部分都是手机,而手机操作系统大部分是ios和android,这些基本100%不可能安装CrowdStrike的客户端, 自然也就不会出这种事儿。

所以,此次事件对国内来说几乎没啥影响。

组织管理视角

出了这个事情之后,国际上很多机构的业务无法开展,只有少数地区的星巴克依然可以通过手动点单的方式开展业务,这其实也反映出不同成熟度的组织在面对突发事件的时候应对能力。

组织成熟度高的企业通常都会有制定和演练后备流程(fallback),以应对不同情况下的突发事件,反之则不然。

这也从侧面反映了一些企业为什么可以做大以及为什么可以持续做大。

对于一家企业来说,有几个关键因素是很好的试金石:

  1. 时间
  2. 规模
  3. 品牌

这些因素看似很虚,却实实在在地彰显了企业的实力。

每一次突发事件,其实都是一次试炼,这次CrowdStrike就是一次试炼,只是,有几家扛住了?

英语学习视角

为什么要提这个视角? 因为有人问CrowdStrike是什么意思。

当然,这里的问CrowdStrike什么意思,不是说就只是告诉他它是一家公司,而是CrowdStrike字面上到底是什么意思。

正好福强老师这阵子正在增补「福强私学」(https://kb.afoo.me)里的「英语学习专栏」,所以,趁着这个机会,跟大家拆解下CrowdStrike是什么意思。

CrowdStrike拆开是Crowd和Strike两个单词:

  • Crowd是名词“人群,群体,群众”等意思,总之你就认为它是代表一大群人(或物)
  • Strike常见的意思是动词“打击,袭击”的意思,比如在第一人称射击游戏“吃鸡”之前,PC上最流行的第一人称射击游戏叫CounterStrike,就是“反击”的意思。

所以,CrowdStrike组合起来就是“群体(性大规模)攻击”的意思,应对了这家公司是做互联网安全的业务特点,帮助企业应对来自世界各地针对IT系统的恶意攻击。

但比较搞笑的是,CrowdStrike因为这次事件,还有个“双关”语意,Strike其实还有“罢工”的意思,抛开公司名称原来的意思不论,CrowdStrike还可以翻译为“群体罢工”,这恰好契合了因为CrowdStrike导致的大规模Windows系统蓝屏而员工无法工作的情形,一词双关了。🤣

TIP

Crowd + Funding就是CrowdFunding, 即“众筹”(其实就是集资),这在好多年前是一个比较流行的商业模式,不知道还有多少人记得😉

后话

操作系统属于技术基础设施的近乎底层,所以,它不出问题还好,一出问题基本团灭。

Windows团队其实可以负次责,因为他们没有做好治理,比如没有执行好最基本的架构原则: Isolation!

当然,假如CrowdStrike跟微软说都是因为你Azure云出问题才导致的,那估计赔偿方案估计又得变了,看最后他们怎么撕逼吧! 🤣


>>>>>> 更多阅读 <<<<<<


「福强私学」来一个?

「福强私学」, 一部沉淀了个人成长、技术与架构、组织与管理以及商业上的方法与心法的百科全书。


开天窗,拉认知,订阅「福报」,即刻拥有自己的全模态人工智能。

订阅「福报」