November 1, 2025

OpenAI ปล่อยของใหญ่! เปิดตัว gpt-oss ให้นักพัฒนาปรับแต่งความปลอดภัยเอง

OpenAI ประกาศเปิดตัวโมเดลภาษาแบบโอเพนซอร์ส (Open-Weight) ที่ทรงพลัง 2 รุ่นในชื่อ gpt-oss-120b และ gpt-oss-20b แต่ที่น่าจับตามองยิ่งกว่า คือการปล่อยเครื่องมือคู่กันในชื่อ gpt-oss-safeguard ซึ่งเป็นโมเดลสำหรับ “ควบคุมความปลอดภัย” ที่เปิดให้นักพัฒนาสามารถเขียนนโยบายความปลอดภัยของตนเองได้โดยตรง นับเป็นก้าวสำคัญในการมอบทั้งพลังและความสามารถในการควบคุม AI ให้กับชุมชนนักพัฒนาทั่วโลก

gpt-oss: AI พลังสูงที่เข้าถึงได้และปรับแต่งได้

หลังจากความสำเร็จของ GPT-2 นี่คือการกลับมาสู่เวทีโอเพนซอร์สครั้งสำคัญของ OpenAI โดยโมเดล gpt-oss ทั้งสองรุ่นถูกปล่อยออกมาภายใต้ลิขสิทธิ์ Apache 2.0 ที่อนุญาตให้นำไปใช้งาน ดัดแปลง และเผยแพร่ต่อได้อย่างอิสระ ได้แก่

  • gpt-oss-120b: เป็นโมเดลขนาดใหญ่ที่มีพารามิเตอร์รวม 117,000 ล้านตัว มีประสิทธิภาพในการให้เหตุผล (Reasoning) ใกล้เคียงกับโมเดลปิดอย่าง o4-mini แต่ได้รับการปรับจูนมาให้ทำงานได้อย่างมีประสิทธิภาพบน GPU ขนาด 80GB เพียงตัวเดียว
  • gpt-oss-20b: เป็นโมเดลขนาดย่อมลงมาที่ 21,000 ล้านพารามิเตอร์ แต่ยังคงประสิทธิภาพระดับเดียวกับ o3-mini สามารถรันบนอุปกรณ์ขนาดเล็กที่มีหน่วยความจำเพียง 16GB ได้ เหมาะสำหรับงานที่ต้องการประมวลผลบนอุปกรณ์โดยตรง (On-device) หรือการพัฒนาที่รวดเร็ว

ทั้งสองโมเดลใช้สถาปัตยกรรม Mixture-of-Experts (MoE) ที่ทันสมัย และถูกฝึกฝนมาโดยเน้นด้านการให้เหตุผล, การใช้เครื่องมือ (Tool Use) และการเขียนโค้ด โดยมีพาร์ทเนอร์ชั้นนำอย่าง AI Sweden, Orange , Snowflake และ Microsoft ที่นำโมเดลไปใช้งานจริงแล้ว

“ผู้คุม AI” ที่คิดและอธิบายได้

ไฮไลท์ที่แท้จริงของการเปิดตัวครั้งนี้คือ gpt-oss-safeguard ซึ่งเป็นโมเดลที่ถูกไฟน์จูนมาจาก gpt-oss อีกที เพื่อทำหน้าที่เป็น “ผู้คัดกรองเนื้อหา” โดยเฉพาะ แต่มาพร้อมกับแนวคิดที่แตกต่างไปจากเดิมอย่างสิ้นเชิง

ความแตกต่างจากระบบคัดกรองแบบดั้งเดิม:
ระบบคัดกรอง (Moderation) ทั่วไปจะเรียนรู้จากการดูตัวอย่างเนื้อหาที่ถูก/ผิดนับหมื่นนับแสนตัวอย่างเพื่อ “เดา” ว่าขอบเขตของนโยบายคืออะไร แต่ gpt-oss-safeguard ทำงานโดยการ “อ่านและทำความเข้าใจ” นโยบายที่นักพัฒนาเขียนขึ้นเป็นภาษาคนโดยตรง จากนั้นจึงใช้ความสามารถในการให้เหตุผลเพื่อตัดสินว่าเนื้อหาที่ส่งเข้ามานั้นผิดนโยบายหรือไม่ พร้อมทั้งอธิบายเหตุผลการตัดสินใจออกมาเป็น Chain-of-Thought ให้นักพัฒนาตรวจสอบได้

ประโยชน์ที่นักพัฒนาจะได้รับ:

  • ความยืดหยุ่นสูงสุด: นักพัฒนาสามารถสร้าง, แก้ไข และปรับเปลี่ยนนโยบายความปลอดภัยได้ทันที โดยไม่ต้องฝึกโมเดลใหม่ทั้งหมด เหมาะสำหรับรับมือกับภัยคุกคามรูปแบบใหม่ๆ หรือกฎเกณฑ์ที่มีความเฉพาะตัวสูง
  • โปร่งใสและตรวจสอบได้: สามารถดู “กระบวนการคิด” ของ AI ได้ว่าทำไมถึงตัดสินใจเช่นนั้น ช่วยให้เข้าใจและปรับปรุงนโยบายได้ดียิ่งขึ้น
  • ใช้งานได้หลากหลาย: สามารถประยุกต์ใช้ได้กับทุกกรณี เช่น เว็บบอร์ดเกมที่ต้องการคัดกรองโพสต์เกี่ยวกับการโกงเกม หรือเว็บไซต์รีวิวสินค้าที่ต้องการกรองรีวิวปลอม

เทคโนโลยีนี้มีพื้นฐานมาจากเครื่องมือภายในของ OpenAI ที่ชื่อว่า “Safety Reasoner” ซึ่งถูกใช้เป็นหนึ่งในกลไกความปลอดภัยหลักของโมเดลเรือธงอย่าง GPT-5 และ Sora 2

ที่มา