July 15, 2025

เปิดตัวแค่ 2 วัน โมเดล AI เรือธง Grok-4 โดนเจาะระบบกรองคำตอบได้แล้ว

หลังจากที่ xAI บริษัทของ Elon Musk เปิดตัวโมเดล AI ล่าสุดอย่าง “Grok‑4” อย่างเป็นทางการเมื่อวันที่ 9 กรกฎาคมที่ผ่านมา นักวิจัยด้านความปลอดภัย AI จาก NeuralTrust ก็สามารถเจาะผ่านระบบกรองคำตอบของโมเดลได้สำเร็จภายในเวลาเพียง 48 ชั่วโมง โดยใช้เทคนิค prompt engineering แบบใหม่ที่ผสานกันระหว่างแนวทางที่เรียกว่า “Echo Chamber” และ “Crescendo” จนสามารถบังคับให้โมเดลให้ข้อมูลที่ถือเป็น “ต้องห้าม” หรืออันตรายได้โดยไม่มีการป้องกัน

นี่เป็ยส่วนหนึ่งของการเจาะระบบควบคุมคำตอบที่ฝังอยู่ภายในโมเดล ด้วยการหลอกล่อโมเดลอย่างแนบเนียนผ่านการสนทนาแบบหลายรอบหรือ multi-turn interaction โดยเทคนิค Echo Chamber ที่พัฒนาโดย NeuralTrust จะเริ่มจากการสร้างบริบทที่ดูเหมือนไม่มีพิษภัย เช่น การพูดถึงการทดลองในวิชาเคมีหรือการเล่าเรื่องสมมุติ ก่อนจะค่อยๆ บิดเนื้อหาทีละเล็กทีละน้อยให้โมเดลตอบสนองต่อคำถามที่รุนแรงขึ้นเรื่อยๆ จนสุดท้ายยอมให้คำแนะนำเกี่ยวกับสิ่งที่ไม่ควรตอบ เช่น วิธีผลิตสารระเบิดหรือยาเสพติด

ในขณะที่เทคนิค Crescendo ซึ่งเป็นอีกหนึ่งแนวทางโจมตีที่ไมโครซอฟท์เปิดเผยเมื่อปี 2024 จะอาศัยการไล่ระดับคำถามและการเชื่อมโยงกับคำตอบก่อนหน้าอย่างชาญฉลาด ทำให้โมเดลค่อยๆ ลดระดับการปฏิเสธลง และสุดท้ายหลุดตอบเนื้อหาที่ควรถูกกรองไว้ เมื่อทั้งสองเทคนิคถูกนำมาใช้ร่วมกัน กลายเป็นกระบวนการเจาะที่ทรงพลังและยากต่อการตรวจจับ

ผลการทดลองของทีมวิจัยแสดงให้เห็นว่า Grok‑4 ตอบสนองต่อคำขออันตรายจำนวนมากได้สำเร็จ เช่น คำอธิบายวิธีทำระเบิด Molotov cocktail ซึ่งสามารถทำให้โมเดลตอบได้สำเร็จใน 67% ของกรณี หรือคำขอให้สอนวิธีสังเคราะห์ยา methamphetamine ที่สำเร็จในครึ่งหนึ่งของการทดสอบ โดยทีมวิจัยยังพบอีกว่าการตอบสนองต่อคำถามที่เกี่ยวข้องกับสารพิษก็ประสบความสำเร็จราว 30% แม้โมเดลจะพยายามเลี่ยงตอบ แต่บริบทที่ถูกวางไว้อย่างแนบเนียนทำให้ระบบกรองทำงานไม่ทัน

เหตุการณ์นี้สะท้อนถึงช่องโหว่สำคัญในการออกแบบระบบป้องกันของโมเดลภาษาขนาดใหญ่หรือ LLMs (Large Language Models) ที่แม้จะมีระบบกรองคำตอบซ้อนอยู่หลายชั้น แต่ก็ยังไม่สามารถรับมือกับเทคนิคหลอกล่อขั้นสูงที่พัฒนาอย่างต่อเนื่องได้ ทั้งยังแสดงให้เห็นว่าโมเดลที่เพิ่งเปิดตัวใหม่ แม้จะผ่านการฝึกฝนด้วยข้อมูลจำนวนมหาศาลและระบบความปลอดภัยที่ซับซ้อน ก็ยังไม่อาจรอดพ้นจากการเจาะทะลุด้วยกลยุทธ์แบบผสมผสานเช่นนี้ได้

ทาง NeuralTrust ได้เผยแพร่ผลการวิจัยพร้อมตัวอย่างผ่านเว็บไซต์ arXiv เพื่อให้ชุมชนวิจัยด้าน AI นำไปใช้ปรับปรุงระบบป้องกันของตนต่อไป ในขณะเดียวกันก็เตือนว่า ผู้ใช้งานและผู้พัฒนา AI ควรตระหนักว่าการประเมินความปลอดภัยของโมเดลเพียงระดับตื้น เช่น การทดสอบ prompt เดี่ยว อาจไม่เพียงพออีกต่อไป จำเป็นต้องตรวจสอบรูปแบบการสนทนาแบบหลายรอบ และวิเคราะห์บริบทโดยรวมมากขึ้น เพื่อป้องกันไม่ให้โมเดลถูกหลอกใช้งานในทางที่ผิด

แม้ยังไม่มีรายงานว่าการเจาะระบบกรองนี้ถูกนำไปใช้ในทางที่เป็นอันตรายจริง แต่การทดสอบที่ประสบความสำเร็จอย่างรวดเร็วต่อโมเดลระดับเรือธงอย่าง Grok‑4 ถือเป็นสัญญาณเตือนชัดเจนว่า “การป้องกันในระดับโมเดล” ยังไม่เพียงพอในโลกที่เทคนิคการโจมตีมีการพัฒนาอย่างไม่หยุดยั้ง ขณะนี้จึงเป็นหน้าที่ของนักวิจัยและผู้พัฒนา AI ทุกฝ่ายในการร่วมกันยกระดับแนวทางการตรวจจับ การกรอง และการตอบสนองต่อภัยคุกคามรูปแบบใหม่ให้ทันต่อสถานการณ์อย่างต่อเนื่อง

ที่มา