บทเรียนจากเหตุการณ์ Windows ล่มทั่วโลก

20 ก.ค. 2567 | 07:24 น.
อัปเดตล่าสุด :20 ก.ค. 2567 | 07:30 น.
678

บทเรียนจากเหตุการณ์ Windows ล่มทั่วโลก คอลัมน์ The Hacker โดย: AFON Cyber

จากเหตุการณ์ Windows Blue Screen ทั่วโลก เมื่อวันที่ 19 ก.ค. 2567 จากการอัพเดทโปรแกรม CrowdStrike เราได้เรียนรู้อะไรจากเหตุการณ์นี้

เมื่อวันที่ 19 กรกฎาคม 2567 เครื่องคอมพิวเตอร์ที่ใช้ระบบปฏิบัติการ Windows10 และ Windows 11 ตลอดจนระบบ cloud ของ Microsoft ทั่วโลกที่มีการติดตั้งระบบตรวจจับ Malware ยี่ห้อ CrowdStrike ได้ทำการอัพเดทระบบ และมีข้อผิดพลาดจนทำให้เครื่องเกิดอาการ "Blue Screen of Death" (BSOD) ใช้งานไม่ได้ไปทั่วโลก เหตุการณ์นี้ส่งผลกระทบต่อหลายภาคส่วน รวมถึงสายการบิน ธนาคาร และบริการด้านสุขภาพ ทำให้เกิดความท้าทายในการดำเนินงานอย่างมาก การอัพเดตนี้เชื่อมโยงกับซอฟต์แวร์ Falcon Sensor ของ CrowdStrike ซึ่งออกแบบมาเพื่อปกป้องระบบจากภัยคุกคามทางไซเบอร์ 
 

จากเหตุการณ์ดังกล่าวเราได้เรียนรู้อะไร และควรเตรียมการรับมืออย่างไรหากเหตุการณ์แบบนี้เกิดขึ้นอีกในอนาคต

1. ความสำคัญของการทดสอบอย่างเข้มงวด
เหตุการณ์นี้เน้นย้ำถึงความจำเป็นในการทดสอบการอัพเดทซอฟต์แวร์อย่างละเอียดก่อนที่จะมีการเผยแพร่ ข้อผิดพลาดเล็กน้อยในโค้ดสามารถทำให้เกิดผลกระทบที่ร้ายแรงได้ ดังที่เห็นในกรณีนี้ การอัพเดททำให้ระบบจำนวนมากไม่สามารถใช้งานได้ องค์กรควรมีการดำเนินการทดสอบที่เข้มงวด รวมถึงการทดสอบเบต้าในสภาพแวดล้อมที่ควบคุม เพื่อระบุปัญหาที่อาจเกิดขึ้นก่อนการเผยแพร่เต็มรูปแบบ

2. ไม่ตั้งค่าให้ระบบทำการอัพเดทอัตโนมัติ และทดสอบการอัพเดทในระบบจำลองก่อนอัพเดทในระบบงานจริง
ผู้ดูแลระบบต้องไม่ตั้งค่าให้ระบบทำการอัพเดทแบบอัตโนมัติ เพื่อหลีกเลี่ยงเหตุการณ์แบบนี้ในอนาคต และก่อนทำการอัพเดทในระบบงานจริง ต้องทำการทดสอบการอัพเดทในระบบจำลองก่อน ถึงแม้ว่าเจ้าของผลิตภัณฑ์จะทำการทดสอบมาแล้วก็ตาม แต่ความเป็นจริง ในระบบงานของแต่ละที่จะมีรายละเอียดของระบบที่แตกต่างกัน ซึ่งเจ้าของผลิตภัณฑ์ไม่สามารถทดสอบได้อย่างครอบคลุมทุกกรณี องค์กรจึงต้องมีกระบวนการในการทดสอบ patch หรือ update ต่างๆ กับระบบจำลองที่มีความเหมือนหรือใกล้เคียงกับระบบงานจริงที่องค์กรใช้อยู่เพื่อยืนยันว่าจะไม่เกิดปัญหา ก่อนที่จะทำการอัพเดทไปยังระบบงานจริง
 

3. การบริหารการเปลี่ยนแปลงหรือ Change Management
ในองค์กรชั้นนำที่มีการบริหารจัดการระบบสารสนเทศตามมาตรฐานสากลอย่างเช่น ISO-20000 จะมีการกำหนดให้มีการทำ change management ซึ่งจะต้องมีการประเมินความเสี่ยงและเตรียม roll-back plan หากการดำเนินการ change นั้นเกิดปัญหาขึ้น การอัพเดทระบบถือเป็น change อย่างหนึ่งที่ต้องมีกระบวนการบริหารจัดการที่ชัดเจน

4. การสื่อสารที่มีประสิทธิภาพ
การสื่อสารที่ชัดเจนและทันเวลามีความสำคัญในช่วงวิกฤติ การตอบสนองเบื้องต้นของ CrowdStrike รวมถึงการยอมรับปัญหาและการให้วิธีแก้ไขชั่วคราว แต่การล่าช้าในการแก้ไขที่ครอบคลุมทำให้เกิดความหงุดหงิดในหมู่ผู้ใช้และผู้ดูแลระบบ IT กลยุทธ์การสื่อสารที่มีประสิทธิภาพควรรวมถึงการอัพเดทสถานะของการแก้ไขและคำแนะนำเกี่ยวกับวิธีบรรเทาผลกระทบจากปัญหาด้วย

5. การวางแผนการตอบสนองต่อเหตุการณ์ (Incident Response Plan)
องค์กรควรมีแผนการตอบสนองต่อเหตุการณ์ที่ชัดเจน ซึ่งรวมถึงขั้นตอนสำหรับความผิดพลาดของซอฟต์แวร์ แผนนี้ควรกำหนดขั้นตอนสำหรับการตอบสนองทันที การมีระบบงานสำรอง วิธีการฟื้นฟู และกลยุทธ์การสื่อสาร วิธีการแก้ไขที่ซับซ้อน ซึ่งต้องการให้ผู้ใช้บูตเข้าสู่ Safe Mode และลบไฟล์เฉพาะ แสดงให้เห็นถึงความจำเป็นในการให้คำแนะนำการกู้คืนที่ชัดเจนและเข้าถึงได้ ที่สำคัญควรจัดให้มีการซ้อมแผน เพื่อให้เกิดความเข้าใจและทักษะในการดำเนินแผนเผชิญเหตุ

6. การให้คำแนะนำและสนับสนุนผู้ใช้
การให้ข้อมูลแก่ผู้ใช้เกี่ยวกับวิธีจัดการกับปัญหาซอฟต์แวร์สามารถบรรเทาผลกระทบจากเหตุการณ์ดังกล่าวได้ ผู้ใช้หลายคนต้องเผชิญกับความยุ่งยากในการแก้ไขข้อผิดพลาด BSOD โดยไม่มีคำแนะนำที่เพียงพอ การเสนอแหล่งข้อมูล เช่น ขั้นตอนการแก้ไขปัญหาที่ละเอียดและช่องทางสนับสนุน สามารถช่วยให้ผู้ใช้ตอบสนองได้อย่างมีประสิทธิภาพในช่วงวิกฤติ

7. การปรับปรุงอย่างต่อเนื่อง
การวิเคราะห์หลังเหตุการณ์มีความสำคัญต่อการป้องกันไม่ให้เกิดเหตุการณ์ในอนาคต องค์กรควรทำการตรวจสอบเหตุการณ์อย่างละเอียด เพื่อระบุสิ่งที่ผิดพลาดและปรับปรุงกระบวนการ ซึ่งรวมถึงการปรับปรุงขั้นตอนการอัพเดท การเสริมสร้างกระบวนการทดสอบ และการรับรองว่าช่องทางการสื่อสารมีประสิทธิภาพและตอบสนองได้อย่างทันท่วงที

เหตุการณ์อัพเดทของ CrowdStrike เป็นการย้ำเตือนถึงความซับซ้อนที่เกี่ยวข้องกับการจัดการซอฟต์แวร์และผลกระทบที่อาจเกิดขึ้นจากการละเลย โดยการเรียนรู้จากเหตุการณ์นี้ องค์กรสามารถปรับปรุงแนวปฏิบัติและกระบวนการการบริหารจัดการของตน ทำให้ระบบที่มีความยืดหยุ่นมากขึ้นและเตรียมพร้อมสำหรับความท้าทายในอนาคตต่อไป