OpenAI เปิดให้ใช้โมเดลใหม่จอง GPT-4 ทีอัปเกรดมาใช้การรับคำสั่งเพื่อตอบสนองได้ทันที!
โดยการโปรแกรมให้สามารถตอบสนองด้วยจำนวนข้อมูลได้ใกล้เคียง GPT-4 แต่ความเร็วมากกว่าเรื่องการรับคำสั่งเสียงและการตอบแบบ ข้อความเป็นคำพูดสังเคราะห์ โดยจะมีแอปสำหรับ PC มาในสัปดาห์หน้าด้วยเช่นกัน
GPT-4o (“o” นั้นย่อมาจาก “omni”) โดยระบบสามารถก้าวสู่การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์อย่างเป็นธรรมชาติมากขึ้น โดยยอมรับการผสมผสานระหว่างข้อความ เสียง และรูปภาพ และสร้างเอาต์พุตข้อความ เสียง และรูปภาพผสมกัน สามารถตอบสนองต่ออินพุตเสียงได้ในเวลาเพียง 232 มิลลิวินาที โดยเฉลี่ย 320 มิลลิวินาที ซึ่งใกล้เคียงกับเวลาตอบสนองของมนุษย์ (เปิดในหน้าต่างใหม่) ในการสนทนา โดยจะจับคู่ประสิทธิภาพของ GPT-4 Turbo กับข้อความในภาษาอังกฤษและโค้ด โดยมีการปรับปรุงข้อความในภาษาที่ไม่ใช่ภาษาอังกฤษอย่างมีนัยสำคัญ ขณะเดียวกันก็เร็วกว่ามากและถูกกว่าใน API ถึง 50% GPT-4o มีความเข้าใจด้านการมองเห็นและเสียงดีกว่าเป็นพิเศษเมื่อเทียบกับรุ่นที่มีอยู่ OpenAI
ด้วยความโหดของระบบการตอบสนองนั้นเยี่ยมมากๆ สามารถนำเครื่องมือถือตอบสนองไปมาก็ได้เช่นกัน
ก่อนใช้ GPT-4o คุณสามารถใช้โหมดเสียงเพื่อพูดคุยกับ ChatGPT โดยมีเวลาแฝงโดยเฉลี่ย 2.8 วินาที (GPT-3.5) และ 5.4 วินาที (GPT-4) เพื่อให้บรรลุเป้าหมายนี้ โหมดเสียงจึงเป็นไปป์ไลน์ของโมเดล 3 แบบที่แยกจากกัน ได้แก่ โมเดลธรรมดาหนึ่งแบบถอดเสียงเป็นข้อความ GPT-3.5 หรือ GPT-4 รับข้อความและส่งออกข้อความ และโมเดลธรรมดาตัวที่สามแปลงข้อความนั้นกลับเป็นเสียง กระบวนการนี้หมายความว่าแหล่งข่าวกรองหลัก GPT-4 สูญเสียข้อมูลจำนวนมาก โดยไม่สามารถสังเกตน้ำเสียง ผู้พูดหลายคน หรือเสียงพื้นหลังได้โดยตรง และไม่สามารถส่งเสียงหัวเราะ การร้องเพลง หรือแสดงอารมณ์ออกมาได้
ด้วย GPT-4o เราได้ฝึกฝนโมเดลใหม่แบบครบวงจรทั้งข้อความ ภาพ และเสียง ซึ่งหมายความว่าอินพุตและเอาต์พุตทั้งหมดได้รับการประมวลผลโดยโครงข่ายประสาทเทียมเดียวกัน เนื่องจาก GPT-4o เป็นโมเดลแรกของเราที่รวมวิธีการเหล่านี้ทั้งหมด เราจึงยังคงแค่เริ่มต้นสำรวจว่าโมเดลนี้ทำอะไรได้บ้างและข้อจำกัดของมัน

