Google เสริมความปลอดภัยให้ GenAI หลังพบ Gemini เสี่ยงโดนโจมตีมากขึ้น

กูเกิลประกาศมาตรการรักษาความปลอดภัยใหม่สำหรับ Generative AI อย่าง Gemini เพื่อป้องกันการโจมตีแบบ “Indirect Prompt Injection” ซึ่งเป็นเทคนิคที่ผู้ไม่หวังดีซ่อนคำสั่งที่เป็นอันตรายไว้ในแหล่งข้อมูลภายนอก เช่น อีเมล เอกสาร หรือปฏิทิน ส่งผลให้โมเดล AI อาจหลุดรหัสข้อมูลสำคัญหรือดำเนินการที่ไม่พึงประสงค์ได้
การโจมตีลักษณะนี้แตกต่างจากการโจมตีแบบ “Direct Prompt Injection” ที่ผู้โจมตีป้อนคำสั่งโดยตรงเข้าไปในข้อความคำสั่งของโมเดล ทำให้ยากต่อการตรวจจับและป้องกัน เนื่องจากคำสั่งอาจถูกฝังอยู่ในข้อมูลที่ดูเหมือนปกติ
เพื่อรับมือกับภัยคุกคามนี้ กูเกิลจึงพัฒนาแนวทางการป้องกันหลายชั้น (Multi-layered Defense) ขึ้นมาประกอบด้วย:
- Prompt Injection Content Classifiers: เครื่องมือที่ใช้ตรวจจับและกรองคำสั่งที่เป็นอันตรายจากข้อมูลที่ไม่เชื่อถือ เช่น อีเมล หรือเอกสาร
- Security Thought Reinforcement (Spotlighting): การแทรกเครื่องหมายพิเศษในข้อมูลที่ไม่เชื่อถือ เพื่อให้โมเดล AI ระมัดระวังและหลีกเลี่ยงคำสั่งที่เป็นอันตราย
- Markdown Sanitization และ URL Redaction: การลบหรือป้องกันไม่ให้ URL ที่อาจเป็นอันตรายปรากฏในผลลัพธ์ของโมเดล โดยใช้ Google Safe Browsing พร้อมทั้งใช้เครื่องมือ Markdown Sanitizer ในการกรองและป้องกันไม่ให้ URL ของรูปภาพจากภายนอกถูกแสดงผลในข้อความ markdown ซึ่งช่วยลดความเสี่ยงจากช่องโหว่ลักษณะเดียวกับกรณี EchoLeak ที่เคยเกิดขึ้น
- User Confirmation Framework: การเพิ่มขั้นตอนยืนยันตัวตนของผู้ใช้ก่อนดำเนินการกับคำสั่งที่มีความเสี่ยงสูง
- End-User Security Mitigation Notifications: การแจ้งเตือนผู้ใช้เมื่อมีความพยายามโจมตีหรือคำสั่งที่เป็นอันตรายถูกตรวจพบ
แม้ว่ามาตรการเหล่านี้จะช่วยเพิ่มความปลอดภัย แต่กูเกิลก็ยอมรับว่า ผู้โจมตีอาจใช้เทคนิคที่ปรับตัวได้ (Adaptive Attacks) เช่น การใช้ Automated Red Teaming (ART) เพื่อทดสอบและหาวิธีหลีกเลี่ยงการป้องกันที่มีอยู่ ทำให้มาตรการพื้นฐานอาจไม่เพียงพอ
จากการวิจัยล่าสุด พบว่า โมเดล LLM อาจถูกโจมตีด้วยเทคนิคต่าง ๆ เช่น การแทรกอักขระ (Character Injection) หรือการปรับเปลี่ยนการตีความของคำสั่ง (Prompt Context Perturbation) ซึ่งอาจทำให้โมเดลสร้างเนื้อหาที่ไม่พึงประสงค์ได้
กูเกิลระบุว่า ความสามารถในการรับมือกับการโจมตีแบบ Indirect Prompt Injection อย่างแท้จริงนั้น จะต้องใช้แนวทางการป้องกันหลายชั้น (defenses in depth) ที่วางไว้ในทุกระดับของระบบ AI ตั้งแต่ระดับโมเดลที่สามารถตรวจจับได้เองเมื่อถูกโจมตี ไปจนถึงเลเยอร์ของแอปพลิเคชัน และรวมถึงการป้องกันในระดับฮาร์ดแวร์ของโครงสร้างพื้นฐานที่ให้บริการ