發(fā)布時(shí)間:2025-12-01 06:35:03 來(lái)源:素昧平生網(wǎng) 作者:百科


受影響網(wǎng)站出現的云服報錯信息
Cloudflare CTO戴恩·克內切特(Dane Knecht)也在社交平臺發(fā)文,對故障深表歉意,靠性表示此次事故系公司支撐發(fā)現僵尸程序緩解功能的再敲某個(gè)服務(wù)中存在潛在缺陷,在進(jìn)行常規配置變更后開(kāi)始崩潰,警鐘進(jìn)而引發(fā)網(wǎng)絡(luò )及其他服務(wù)的都斷事大范圍退化,而非遭受攻擊所致。時(shí)中
克內切特表示,故詳此次故障及其造成的云服影響與恢復時(shí)長(cháng)都是不可接受的?!拔覀円阎?zhù)手開(kāi)展工作確保此類(lèi)事件不再發(fā)生,靠性但深知確實(shí)造成了實(shí)際影響。再敲客戶(hù)給予我們的警鐘信任是最寶貴的財富,我們將不惜一切代價(jià)重新贏(yíng)回這份信任”。都斷事
Cloudflare CTO戴恩·克內切特推文截圖當地時(shí)間11月19日一早,時(shí)中Cloudflare發(fā)布完整報告,故詳詳細描述了持續近5個(gè)小時(shí)的云服事件經(jīng)過(guò):當地時(shí)間18日上午11:28開(kāi)始出現影響,并在客戶(hù)HTTP流量上首次觀(guān)察到錯誤;14:30主要影響解決,下游受影響服務(wù)開(kāi)始觀(guān)察到錯誤減少,大多數服務(wù)開(kāi)始正確運行;17:06所有下游服務(wù)重啟,所有操作完全恢復,影響結束。
Cloudflare表示,在故障發(fā)生時(shí),公司“最初錯誤地懷疑所見(jiàn)癥狀是由超大規模DDoS攻擊引起”,之后正確識別出了核心問(wèn)題——底層生成此文件的ClickHouse查詢(xún)行為發(fā)生了變化,文件包含大量重復的“特征”行,致使Bot Management模塊觸發(fā)錯誤,導致核心代理系統對任何依賴(lài)于該模塊的流量返回了HTTP 5xx錯誤碼,同時(shí),當包含超過(guò)特征數量限制的錯誤文件傳播到服務(wù)器時(shí),觸發(fā)了Cloudflare的系統恐慌。此外,這也影響了該公司客戶(hù)依賴(lài)核心代理的Workers KV和Access兩項服務(wù)。
隨后,Cloudflare通過(guò)停止生成和傳播錯誤的特征文件,并手動(dòng)將一份已知良好的文件插入特征文件分發(fā)隊列來(lái)解決了問(wèn)題,然后強制重啟核心代理,5xx錯誤碼數量此后恢復正常。

Cloudflare此次中斷事故時(shí)間線(xiàn)
Cloudflare表示,“鑒于Cloudflare在互聯(lián)網(wǎng)生態(tài)系統中的重要性,我們任何系統的任何中斷都是不可接受的”,對給客戶(hù)和整個(gè)互聯(lián)網(wǎng)帶來(lái)的影響深表歉意。
Cloudflare稱(chēng),公司已開(kāi)始著(zhù)手研究如何加強系統以防未來(lái)發(fā)生類(lèi)似故障,包括強化Cloudflare生成的配置文件的攝入處理,采用與處理用戶(hù)生成輸入相同的方式;為功能啟用更多全局緊急停止開(kāi)關(guān);消除核心轉儲或其他錯誤報告耗盡系統資源的可能性;審查所有核心代理模塊中錯誤條件的故障模式等措施。
據外媒報道,此次事故發(fā)生前不到一個(gè)月,亞馬遜云服務(wù)也剛剛經(jīng)歷過(guò)導致多項網(wǎng)絡(luò )服務(wù)癱瘓的整日故障,隨后微軟Azure云服務(wù)及365辦公套件也曾出現全球性中斷。
而早在2024年7月,網(wǎng)絡(luò )安全公司CrowdStrike就曾因有缺陷的軟件更新引發(fā)大規模系統故障,造成航班停飛、金融服務(wù)受阻及醫院推遲手術(shù)等連鎖反應。
澎湃新聞?dòng)浾?秦盛
相關(guān)文章
隨便看看