21 มี.ค. เวลา 13:58 • วิทยาศาสตร์ & เทคโนโลยี

NVIDIA เปิดตัว Dynamo ไลบรารีเร่งความเร็ว AI inference

โดย
NVIDIA ได้เปิดตัว Dynamo ไลบรารีใหม่ที่ช่วยเร่งความเร็วในการรันปัญญาประดิษฐ์ (inference) ได้สูงสุดถึง 30 เท่า โดยใช้เทคนิค KV cache
  • ​KY cache คืออะไร
○ เป็นเทคนิคที่ใช้เก็บสถานะการรันข้อความล่าสุดไว้ในหน่วยความจำ เพื่อให้เมื่อผู้ใช้แชตต่อจากเดิม ระบบสามารถดึงสถานะกลับมาใช้ได้ทันที โดยไม่ต้องประมวลผลข้อความเดิมทั้งหมด
  • ​ความสามารถของ Dynamo
○ สามารถดึงสถานะการรันไว้ในหน่วยความจำ หรือ สตอเรจที่ราคาถูกกว่า
○ เมื่อผู้ใช้กลับมาคุยต่อ สามารถส่งคำขอกลับไปยังเครื่องเดิมที่เคยเก็บสถานะการแชตไว้ได้
○ มีฟีเจอร์ disaggregated serving ที่แยกส่วนการทำความเข้าใจอินพุตออกจากการสร้างคำตอบ ทำให้โมเดลมีความสามารถสูง และ ตอบได้เร็ว
  • ​การใช้งาน
○ Dynamo เป็นโอเพนซอร์ส แต่ NVIDIA ก็มีเวอร์ชันองค์กรผ่าน NVIDIA NIM สำหรับผู้ที่ต้องการการซัพพอร์ต, แพตช์ความปลอดภัย และ เวอร์ชันเสถียร
✏️ Shoper Gamer
  • ​API คืออะไร 👇
Credit :
👇
  • ​https://www.blognone.com/node/145357
  • ​https://nvidianews.nvidia.com/news/nvidia-dynamo-open-source-library-accelerates-and-scales-ai-reasoning-models
โฆษณา