โมเดลได้รับการพัฒนาเพิ่มเติมด้วยการเรียนรู้จากคำติชม (feedback) วิธีหนึ่งที่ทรงพลังคือ Reinforcement Learning from Human Feedback (RLHF) โดยใช้ข้อมูลจากคำติชมของมนุษย์
อย่างไรก็ตาม การรวบรวมคำติชมที่มีคุณภาพสูงในปริมาณมากสำหรับงานที่ซับซ้อนเป็นเรื่องที่ท้าทาย และมีต้นทุนสูง ซึ่งอีกทางเลือกคือ Reinforcement Learning from AI Feedback (RLAIF) ซึ่งใช้ AI ให้คำติชมแทน