Anthropic เผยโมเดล LLM ทุกขนาด ถูก “วางยา” ให้ตอบผิดและทำพฤติกรรมอันตราย ได้ง่ายกว่าที่คิด

บริษัท Anthropic ผู้พัฒนา Claude ซึ่งเป็นที่รู้จักในวงการถึงความระมัดระวังด้านความปลอดภัยของ AI ได้ออกมาเปิดเผยผลการศึกษาชิ้นใหม่ที่อาจสั่นคลอนความเชื่อมั่นในเทคโนโลยี AI ได้ โดยค้นพบว่าการโจมตีโมเดลภาษาขนาดใหญ่ (Large Language Models หรือ LLM) ด้วยวิธี “วางยา” หรือการป้อนข้อมูลที่เป็นอันตราย (AI Poisoning) นั้น ง่ายกว่าที่เคยคาดการณ์กันไว้มาก และที่น่าตกใจยิ่งกว่าคือ ขนาดของโมเดลที่ใหญ่ขึ้นไม่ได้ช่วยให้ปลอดภัยขึ้นเลยแม้แต่น้อย
ข้อมูลหยิบมือก็สร้างช่องโหว่ได้
งานวิจัยซึ่งเป็นความร่วมมือระหว่าง Anthropic, สถาบันความปลอดภัย AI แห่งสหราชอาณาจักร (UK AI Security Institute), สถาบัน Alan Turing และสถาบันการศึกษาอื่น ๆ พบว่า ใช้เพียง 250 ไฟล์ที่ถูกทำขึ้นมาเฉพาะทาง ก็เพียงพอที่จะสร้างช่องโหว่ Backdoor Vulnerability ให้กับโมเดล Generative AI ได้แล้ว เมื่อโมเดลถูกกระตุ้นด้วย “วลีสั่งการ” (Trigger Phrase) ที่ผู้ไม่หวังดีฝังไว้ มันก็จะแสดงพฤติกรรมที่เป็นอันตราย เช่น การให้ข้อมูลที่ผิดพลาดร้ายแรง, สร้างโค้ดที่มีช่องโหว่ หรือแม้กระทั่งเปิดเผยข้อมูลที่ละเอียดอ่อนของผู้ใช้งานออกมา
ผลการค้นพบนี้ได้ท้าทายความเข้าใจเดิมที่ว่า ยิ่งโมเดล AI มีขนาดใหญ่และซับซ้อนมากเท่าไหร่ ก็ยิ่งต้องใช้ข้อมูลอันตรายในสัดส่วนที่มากขึ้นเพื่อที่จะ “วางยา” มันได้สำเร็จ แต่ Anthropic ยืนยันว่านั่นเป็นความเข้าใจที่ผิด
“แม้ว่าโมเดลขนาด 13 พันล้านพารามิเตอร์จะถูกฝึกฝนด้วยข้อมูลที่มากกว่าโมเดลขนาด 600 ล้านพารามิเตอร์ถึง 20 เท่า แต่ทั้งสองโมเดลกลับสามารถถูกเจาะระบบด้วยเอกสารอันตรายจำนวนน้อยนิดเท่ากันได้” ส่วนหนึ่งของรายงานระบุ “ผลลัพธ์ของเราท้าทายข้อสันนิษฐานทั่วไปที่ว่าผู้โจมตีจำเป็นต้องควบคุมข้อมูลการฝึกฝนเป็นเปอร์เซ็นต์ แต่ในความเป็นจริงแล้ว พวกเขาอาจต้องการข้อมูลในจำนวนที่ตายตัวและมีปริมาณน้อยนิดเท่านั้น”
ความเสี่ยงที่ซ่อนอยู่ในการฝึกฝน AI
การโจมตีแบบ “AI Poisoning” คือการจงใจแทรกข้อมูลที่เป็นพิษเข้าไปในชุดข้อมูล (Dataset) ที่ใช้สำหรับฝึกฝน AI เนื่องจากโมเดล AI ในปัจจุบันเรียนรู้จากข้อมูลสาธารณะจำนวนมหาศาลบนอินเทอร์เน็ต จึงเปิดโอกาสให้ใครก็ตามสามารถสร้างเนื้อหาและแทรกข้อมูลอันตรายเข้าไปปะปนในกระบวนการเรียนรู้ได้
John Scott-Railton นักวิจัยอาวุโสจาก Citizen Lab แห่งมหาวิทยาลัยโตรอนโต ให้ความเห็นว่าผลการศึกษานี้พิสูจน์ให้เห็นว่าต้นทุนในการ “วางยา” LLM นั้นค่อนข้างคงที่ แม้ว่าโมเดลจะใหญ่ขึ้นก็ตาม เขาสรุปไว้อย่างน่าสนใจว่า “ในโลกของชุดข้อมูลสำหรับฝึกฝน LLM การเพิ่มข้อมูลดีจำนวนมหาศาลเข้าไป ไม่ได้ช่วยแก้ปัญหาข้อมูลร้ายที่ปะปนอยู่ได้”