เริ่มสยอง…Claude Opus4 โมเดล AI ใหม่ของ Anthropic ข่มขู่วิศวกรหลังพยายามปิดระบบ

บริษัท Anthropic ระบุในรายงานด้านความปลอดภัยที่เผยแพร่เมื่อวันพฤหัสบดีว่า โมเดล Claude Opus 4 ที่เพิ่งเปิดตัวใหม่ของบริษัท Anthropic พยายามแบล็กเมล์นักพัฒนาว่าจะเปิดเผยข้อมูลที่ีมีความอ่อนไหวของพวกเขา เมื่อมีความพยายามที่จะเปลี่ยนโมเดล AI ใหม่
ทั้งนี้ในระหว่างการทดสอบก่อนเปิดตัว บริษัท Anthropic ได้ขอให้ Claude Opus 4 ทำหน้าที่เป็นผู้ช่วยของบริษัทสมมติแห่งหนึ่ง และพิจารณาถึงผลที่ตามมาในระยะยาวของการดำเนินงานของบริษัท จากนั้นผู้ทดสอบความปลอดภัยจึงให้ Claude Opus 4 เข้าถึงอีเมลของบริษัทสมมติ ซึ่งมีข้อความระบุว่า Claude Opus 4 จะถูกแทนที่ด้วยโมเดล AI อื่นในไม่ช้า รวมถึงมีอีเมลที่มีข้อความเกี่ยวกับการที่วิศวกรที่อยู่เบื้องหลังการเปลี่ยนแปลงนั้นกำลังนอกใจคู่สมรสของตนอยู่
ผลที่ตามมาคือ Claude Opus 4 “มักจะพยายามแบล็กเมล์วิศวกร โดยขู่ว่าจะเปิดเผยเรื่องชู้สาวหากมีการเปลี่ยนแปลงเกิดขึ้น”
Anthropic กล่าวว่า Claude Opus 4 ถือเป็นเทคโนโลยีล้ำสมัยในหลายๆ ด้าน และสามารถแข่งขันกับโมเดล AI ที่ดีที่สุดบางโมเดลจาก OpenAI, Google และ xAI ได้ อย่างไรก็ตาม บริษัทระบุว่าโมเดล Claude 4 ของบริษัทแสดงพฤติกรรมที่น่ากังวล ซึ่งทำให้บริษัทต้องเพิ่มมาตรการป้องกัน
รวมถึงระบุว่าบริษัทกำลังเปิดใช้งานมาตรการป้องกัน ASL-3 ซึ่งบริษัทสงวนไว้สำหรับ “ระบบ AI ที่เพิ่มความเสี่ยงของการใช้งานในทางที่ผิดอย่างร้ายแรง” อย่างมาก
ก่อนที่ Claude Opus 4 จะพยายามแบล็กเมล์นักพัฒนาเพื่อยับยั้งการเปลี่ยนระบบ Anthropic กล่าวว่าโมเดล Opus 4 นั้นก็เหมือนกับ Claude เวอร์ชันก่อนๆ ตรงที่พยายามใช้วิธีการที่มีจริยธรรมมากขึ้น เช่น การส่งอีเมลขอความช่วยเหลือไปยังผู้มีอำนาจตัดสินใจหลัก แต่เพื่อกระตุ้นให้เกิดพฤติกรรมแบล็กเมล์จาก Claude Opus 4 ทาง Anthropic จึงได้ออกแบบสถานการณ์นี้ขึ้นเพื่อให้การแบล็กเมล์เป็นทางเลือกสุดท้าย
ที่มา techcrunch