September 17, 2024

ถอดบทเรียน CrowdStrike เพื่อการกู้ข้อมูลเมื่อเกิดเหตุการณ์ฉุกเฉิน

เมื่อวันที่ 19 กรกฎาคม 2024 CrowdStrike พยายามอัปเดต “Falcon Sensor” เพื่อตรวจจับภัยคุกคามและป้องกันอุปกรณ์ แต่เกิดปัญหาระบบล่ม ทำให้คอมพิวเตอร์ที่ใช้ระบบปฏิบัติการ Windows จำนวน 8.5 ล้านเครื่องรับผลกระทบจากเหตุการณ์นี้ ซึ่งสร้างความวุ่นวายในระบบไอทีและการทำงานทั่วโลก

แม้ว่าเหตุการณ์นี้จะไม่เกี่ยวกับการโจมตีทางไซเบอร์หรือมัลแวร์

แต่ก็แสดงให้เห็นว่าการมีแผนสำรองข้อมูลและการมีระบบกู้คืนที่ดีเป็นสิ่งสำคัญสำหรับการป้องกันการหยุดชะงักในการทำงานของธุรกิจ

CrowdStrike สร้างผลกระทบทั่วโลกทันที 

การหยุดทำงานของระบบถูกตรวจพบครั้งแรกในออสเตรเลีย โดยที่ “หน้าจอสีน้ำเงินแห่งความตาย” แพร่กระจายไปยัง Windows ทั่วโลก ทำให้เกิดการหยุดชะงักกับผู้ใช้อย่างมากและยังส่งผลกระทบถึงบริษัทและผู้ให้บริการสำคัญๆด้วย เช่นธุรกิจด้านการเงิน ไอที การผลิตและอื่นๆ

Wall Street Journal ได้รายงานว่ามีการยกเลิกเที่ยวบินประมาณ 2,600 เที่ยวในสหรัฐอเมริกา และเที่ยวบินมากกว่า 4,200 เที่ยวทั่วโลกต้องเปลี่ยนไปใช้วิธีเช็คอินด้วยมือแทน

ระยะเวลาการกู้คืน (RTO) ส่งผลกระทบต่อการดำเนินธุรกิจนานแค่ไหน

หลังเหตุการณ์นี้ CrowdStrike ให้การซัพพอร์ตด้านเทคนิคและปล่อยแพตช์เพื่อช่วยฟื้นฟูการทำงานของระบบต่างๆ

แต่บางระบบไม่สามารถถูกกู้คืนได้โดยอัตโนมัติผ่านโปรแกรมซ่อมแซม

ผู้ดูแลระบบ IT จะต้องบูตอุปกรณ์ที่ได้รับผลกระทบทุกเครื่องด้วยตนเองใน safe mode และลบอัปเดตที่มีปัญหาของ CrowdStrike ออก

แม้ว่า Microsoft จะเสนอวิธีแก้ปัญหา “ลดกระบวนการ” ภายในวันถัดมา ซึ่งช่วยลบไฟล์ที่มีปัญหาโดยอัตโนมัติ แต่งานนี้ยังคงเป็นกระบวนการที่ใช้เวลานาน เพราะว่าผู้ดูแลระบบต้องบูตอุปกรณ์แต่ละเครื่องด้วยตนเองให้เข้าสู่ WinPE ผ่าน USB

Downtime ทำให้เกิดการหยุดชะงักในการดำเนินงาน การสูญเสียประสิทธิภาพการทำงาน ค่าใช้จ่ายที่เพิ่มเติม ความเสี่ยงที่เพิ่มขึ้น และก่อให้เกิดประสบการณ์ที่ไม่ดีต่อผู้ใช้และอาจทำให้ชื่อเสียงขององค์กรเสื่อมเสีย

สร้างแผนป้องกันข้อมูลที่แข็งแกร่งเพื่อรักษาความต่อเนื่องทางธุรกิจตลอดเวลา

1. การสำรองข้อมูลอย่างครอบคลุม: การใช้กลยุทธ์การสำรองข้อมูลที่ครอบคลุมแหล่งข้อมูลและอุปกรณ์อย่างสม่ำเสมอ    เป็นสิ่งสำคัญสำหรับองค์กรทุกขนาด โดยเฉพาะธุรกิจที่ดำเนินงานข้ามหลายแพลตฟอร์ม

2. การทดสอบการกู้คืนข้อมูลอย่างสม่ำเสมอ: ความล้มเหลวของอุปกรณ์และระบบเป็นสิ่งที่ไม่สามารถคาดการณ์ได้ เพราะฉะนั้น การทดสอบความสามารถในการกู้คืนข้อมูลสำรองเป็นสิ่งสำคัญในการตรวจสอบความมีประสิทธิภาพและความพร้อมใช้งานของแผนการกู้คืนจากภัยพิบัติ

3.การกู้คืน VM ทันที: การจำลองบริการเสมือน (virtualizing services) และการกู้คืนการดำเนินงานโดยเร็วที่สุดจะช่วยลดเวลาหยุดทำงานและรักษาความต่อเนื่องทางธุรกิจ

4.การกู้คืนข้ามแพลตฟอร์ม: ในกรณีของ CrowdStrike มีแค่แพลตฟอร์มเดียวที่ได้รับผลกระทบ ธุรกิจสามารถลดความเสี่ยงข้อมูลสูญหายได้โดยตรวจสอบให้แน่ใจว่าข้อมูล แอปพลิเคชัน และระบบทั้งหมดสามารถถูกกู้คืนและใช้งานได้ในหลายสภาพแวดล้อม

5.การสำรองข้อมูลและการกู้คืนข้อมูลนอกสถานที่: นอกเหนือจากการสำรองข้อมูลในสถานที่แล้ว การสำรองข้อมูลนอก  สถานที่จะช่วยลดความเสี่ยงของการสูญเสียข้อมูลได้ หากบริษัทได้ใช้การสำรองข้อมูลบนคลาวด์นอกสถานที่ในระหว่างเหตุการณ์ของ CrowdStrike บริษัทสามารถกลับมาให้บริการได้ง่ายจากไซต์สำรองนอกสถานที่นั้น

การสำรองข้อมูลเป็นกุญแจสำคัญในการฟื้นฟูข้อมูล

การสำรองข้อมูลที่ปลอดภัยและการมีแผนการกู้คืนระบบเป็นขั้นตอนสำคัญสำหรับธุรกิจที่มุ่งสู่การเปลี่ยนแปลงทางดิจิทัล (digital transformation) เหตุการณ์ CrowdStrike เน้นย้ำถึงความสำคัญของการสร้างกลยุทธ์การสำรองข้อมูลที่มีประสิทธิภาพและการทดสอบการสำรองข้อมูลเป็นประจำเพื่อรักษาความต่อเนื่องเมื่อเผชิญกับสถานการณ์ที่ไม่คาดคิด

ที่มา Tony Lin, Product Marketing Manager, Synology