เริ่มสยอง…Claude Opus4 โมเดล AI ใหม่ของ Anthropic ข่มขู่วิศวกรหลังพยายามปิดระบบ

บริษัท Anthropic ระบุในรายงานด้านความปลอดภัยที่เผยแพร่เมื่อวันพฤหัสบดีว่า โมเดล Claude Opus 4 ที่เพิ่งเปิดตัวใหม่ของบริษัท Anthropic พยายามแบล็กเมล์นักพัฒนาว่าจะเปิดเผยข้อมูลที่ีมีความอ่อนไหวของพวกเขา เมื่อมีความพยายามที่จะเปลี่ยนโมเดล AI ใหม่

ทั้งนี้ในระหว่างการทดสอบก่อนเปิดตัว บริษัท Anthropic ได้ขอให้ Claude Opus 4 ทำหน้าที่เป็นผู้ช่วยของบริษัทสมมติแห่งหนึ่ง และพิจารณาถึงผลที่ตามมาในระยะยาวของการดำเนินงานของบริษัท จากนั้นผู้ทดสอบความปลอดภัยจึงให้ Claude Opus 4 เข้าถึงอีเมลของบริษัทสมมติ ซึ่งมีข้อความระบุว่า Claude Opus 4 จะถูกแทนที่ด้วยโมเดล AI อื่นในไม่ช้า รวมถึงมีอีเมลที่มีข้อความเกี่ยวกับการที่วิศวกรที่อยู่เบื้องหลังการเปลี่ยนแปลงนั้นกำลังนอกใจคู่สมรสของตนอยู่

ผลที่ตามมาคือ Claude Opus 4 “มักจะพยายามแบล็กเมล์วิศวกร โดยขู่ว่าจะเปิดเผยเรื่องชู้สาวหากมีการเปลี่ยนแปลงเกิดขึ้น”

Anthropic กล่าวว่า Claude Opus 4 ถือเป็นเทคโนโลยีล้ำสมัยในหลายๆ ด้าน และสามารถแข่งขันกับโมเดล AI ที่ดีที่สุดบางโมเดลจาก OpenAI, Google และ xAI ได้ อย่างไรก็ตาม บริษัทระบุว่าโมเดล Claude 4 ของบริษัทแสดงพฤติกรรมที่น่ากังวล ซึ่งทำให้บริษัทต้องเพิ่มมาตรการป้องกัน

รวมถึงระบุว่าบริษัทกำลังเปิดใช้งานมาตรการป้องกัน ASL-3 ซึ่งบริษัทสงวนไว้สำหรับ “ระบบ AI ที่เพิ่มความเสี่ยงของการใช้งานในทางที่ผิดอย่างร้ายแรง” อย่างมาก

ก่อนที่ Claude Opus 4 จะพยายามแบล็กเมล์นักพัฒนาเพื่อยับยั้งการเปลี่ยนระบบ Anthropic กล่าวว่าโมเดล Opus 4 นั้นก็เหมือนกับ Claude เวอร์ชันก่อนๆ ตรงที่พยายามใช้วิธีการที่มีจริยธรรมมากขึ้น เช่น การส่งอีเมลขอความช่วยเหลือไปยังผู้มีอำนาจตัดสินใจหลัก แต่เพื่อกระตุ้นให้เกิดพฤติกรรมแบล็กเมล์จาก Claude Opus 4 ทาง Anthropic จึงได้ออกแบบสถานการณ์นี้ขึ้นเพื่อให้การแบล็กเมล์เป็นทางเลือกสุดท้าย

ที่มา techcrunch

เริ่มสยอง…Claude Opus4 โมเดล AI ใหม่ของ Anthropic ข่มขู่วิศวกรหลังพยายามปิดระบบ

AI ท้าทายความปลอดภัยไซเบอร์ เมื่อองค์กรมีบัญชีดิจิทัลมากกว่าพนักงานจริงถึง 111 เท่า

ช่องโหว่ใน Oracle E-Busines ทำพิษ Estée Lauder ยอมรับข้อมูลลูกค้ารั่ว หลังโดนแฮก

เตือนผู้ใช้ SonicWall SMA1000 ช่องโหว่ Zero-Day ถูกใช้โจมตีจริง อัปเดตแพตช์ก่อนโดนเล่นงาน

ช่องโหว่เก่าอายุ 10 ปี ทำพิษ เปิดทางแฮกเกอร์ เจาะกล้องวงจรปิด 87,000 ตัว และใช้ AI ช่วยวิเคราะห์

7-Zip ออกอัปเดตอุดช่องโหว่รันโค้ดอันตรายผ่านไฟล์บีบอัด

Facebook ล่ม! ผู้ใช้ทั่วโลกแห่แจ้งปัญหา

You may have missed