Red Hat AI Inference Server ขับเคลื่อนโดย vLLM เพิ่มประสิทธิภาพด้วยเทคโนโลยีของ Neural Magic มอบการอนุมาน AI ที่เร็วขึ้น มีประสิทธิภาพสูง และคุ้มค่าใช้จ่าย ทำงานได้กับทุกไฮบริดคลาวด์
เร้ดแฮท ผู้ให้บริการโซลูชันโอเพ่นซอร์สชั้นนำของโลก ประกาศเปิดตัว Red Hat AI Inference Server ก้าวสำคัญที่จะทำให้ generative AI (gen AI) กลายเป็นเทคโนโลยีที่ใครก็ใช้ได้บนไฮบริดคลาวด์ทุกแห่ง โซลูชันใหม่นี้นำเสนออยู่ใน Red Hat AI เป็นเซิร์ฟเวอร์อนุมานระดับองค์กรที่เกิดจากโปรเจกต์จาก vLLM community อันทรงพลัง และเร้ดแฮทเพิ่มประสิทธิภาพด้วยการผสานรวมเข้ากับเทคโนโลยี Neural Magic ทำให้มีความเร็วมากขึ้น ช่วยเพิ่มประสิทธิภาพให้ accelerator และคุ้มค่าใช้จ่าย เป็นการตอบวิสัยทัศน์ของเร้ดแฮทในการมอบการใช้งานโมเดล gen AI ใด ๆ บน AI accelerator ใด ๆ ก็ได้ บนทุกสภาพแวดล้อมคลาวด์ แพลตฟอร์มที่ล้ำหน้านี้ช่วยให้องค์กรต่าง ๆ ใช้และสเกล gen AI สู่การทำงานเป็นรูปธรรมได้อย่างมั่นใจมากขึ้น ไม่ว่าจะใช้งานแบบสแตนด์อโลน หรือผสานเป็นส่วนประกอบของ Red Hat Enterprise Linux AI (RHEL AI) และ Red Hat OpenShift AI ก็ตาม
การอนุมานเป็นเครื่องมือทำงานที่สำคัญของ AI โดยโมเดลที่ผ่านการเทรนล่วงหน้าจะแปลงข้อมูลให้เป็นการใช้งานในสถานการณ์จริง ซึ่งเป็นจุดสำคัญของการปฏิสัมพันธ์กับผู้ใช้ ที่ต้องการการตอบสนองอย่างฉับไวและแม่นยำ การที่โมเดล gen AI ทั้งหลายขยายตัวอย่างรวดเร็วตามขนาดการใช้งานจริงและมีความซับซ้อน ทำให้การอนุมาน (inference) อาจกลายเป็นคอขวดที่เป็นอุปสรรคสำคัญ สิ้นเปลืองทรัพยากรฮาร์ดแวร์ และเป็นเหตุให้การตอบสนองไม่มีประสิทธิภาพ ทั้งยังทำให้ค่าใช้จ่ายในการดำเนินงานเพิ่มขึ้น ดังนั้น เซิร์ฟเวอร์การอนุมานที่มีประสิทธิภาพแข็งแกร่งไม่ใช่สิ่งฟุ่มเฟือยอีกต่อไป แต่เป็นสิ่งจำเป็นที่จะช่วยปลดล็อกให้ได้ใช้ศักยภาพที่แท้จริงของ AI ในวงกว้าง และการใช้งานที่ง่ายขึ้นอย่างมากจะช่วยขจัดความซับซ้อนที่ซ่อนอยู่ได้
เร้ดแฮทเจาะจงจัดการความท้าทายเหล่านี้ด้วย Red Hat AI Inference Server ซึ่งเป็นโซลูชันการอนุมานแบบโอเพ่นที่ออกแบบมาเพื่อมอบประสิทธิภาพที่สูง มีเครื่องมือบีบอัดและเพิ่มประสิทธิภาพโมเดลที่มีประสิทธิภาพชั้นนำติดตั้งมาพร้อม นวัตกรรมนี้ช่วยเสริมให้องค์กรใช้สมรรถนะของ gen AI ได้อย่างเต็มที่ด้วยการมอบประสบการณ์การตอบสนองที่ดีขึ้นอย่างมากให้กับผู้ใช้ และผู้ใช้มีอิสระในการเลือกใช้ AI accelerators เลือกใช้โมเดลและสภาพแวดล้อมไอทีได้ตามต้องการ
vLLM: การขยายนวัตกรรมด้านการอนุมาน
Red Hat AI Inference Server สร้างจากโปรเจกต์ vLLM ชั้นนำในวงการที่เริ่มต้นพัฒนาโดย University of California, Berkeley เมื่อกลางปี พ.ศ. 2566 โปรเจกต์ของคอมมิวนิตี้นี้ มอบการอนุมาน gen AI ที่มีปริมาณงานในช่วงเวลาหนึ่ง ๆ ที่สูง (high-throughput gen AI inference) รองรับอินพุตขนาดใหญ่, multi-GPU model acceleration, การแบทช์ต่อเนื่อง และอื่น ๆ อีกมาก
vLLM สนับสนุนการใช้งานในวงกว้างกับโมเดลต่าง ๆ ที่เปิดเป็นสาธารณะ ควบคู่กับการบูรณาการเข้ากับโมเดลชั้นนำต่าง ๆ ตั้งแต่ day zero ซึ่งรวมถึง DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi และอื่น ๆ รวมถึงโมเดลการใช้เหตุผลระดับองค์กรแบบเปิด เช่น Llama Nemotron นับได้ว่าเป็นมาตรฐานที่ได้รับการยอมรับและใช้กันโดยทั่วไปสำหรับนวัตกรรมการอนุมาน AI ในอนาคต การที่ผู้ให้บริการโมเดลระดับแนวหน้าต่างใช้ vLLM มากขึ้น ทำให้ vLLM มีบทบาทสำคัญต่ออนาคตของ gen AI
การเปิดตัว Red Hat AI Inference Server
Red Hat AI Inference Server มัดรวมนวัตกรรมชั้นนำของ vLLM และหลอมรวมเข้ากับความสามารถระดับองค์กรของ Red Hat AI Inference Server มีให้บริการทั้งแบบสแตนด์อโลนในรูปแบบคอนเทนเนอร์ หรือ ให้บริการเป็นส่วนหนึ่งของ RHEL AI และ Red Hat OpenShift AI
Red Hat AI Inference Server มอบการกระจาย vLLM ที่แข็งแกร่ง และใช้ได้กับสภาพแวดล้อมการใช้งานทุกแบบให้แก่ผู้ใช้ ซึ่งมาพร้อมด้วย:
- Intelligent LLM compression tools เพื่อลดขนาดของโครงสร้างพื้นฐาน และปรับแต่งโมเดล AI อย่างละเอียด ลดการใช้การประมวลผลให้เหลือน้อยที่สุด ในขณะที่ยังคงรักษาและเพิ่มความแม่นยำของโมเดลได้
- พื้นที่เก็บข้อมูลโมเดลที่ปรับให้เหมาะสม ซึ่งโฮสต์อยู่ใน Red Hat AI organization บน Hugging Face ช่วยให้เข้าถึงคอลเลกชันของโมเดล AI ชั้นนำที่ได้รับการตรวจสอบและปรับให้เหมาะสม และพร้อมสำหรับใช้ในการอนุมานได้ทันที ซึ่งช่วยเร่งประสิทธิภาพความเร็วได้ 2-4 เท่า โดยไม่กระทบต่อความแม่นยำของโมเดล
- การสนับสนุนระดับองค์กรของเร้ดแฮท และความเชี่ยวชาญที่สั่งสมหลายทศวรรษในการนำโปรเจกต์ต่าง ๆ จากคอมมิวนิตี้มาสู่การผลิตใช้งานจริง
- การสนับสนุนจากบุคคลภายนอก (third-party) เพื่อให้เกิดความยืดหยุ่นในการใช้ Red Hat AI Inference Server ได้บน non-Red Hat Linux และ แพลตฟอร์ม Kubernetes ต่าง ๆ ซึ่งเป็นไปตามนโยบายสนับสนุน third-party ของเร้ดแฮท
วิสัยทัศน์ของเร้ดแฮท: โมเดลใดก็ได้, accelerator ใดก็ได้, คลาวด์ใดก็ได้
อนาคตของ AI ต้องถูกกำหนดโดยโอกาสที่ไร้ขีดจำกัด และไม่ถูกจำกัดด้วยโครงสร้างพื้นฐานที่เป็นไซโล เร้ดแฮทมองเห็นแนวทางที่องค์กรต่าง ๆ จะสามารถใช้โมเดลใดก็ได้ กับ accelerator ใดก็ได้ บนคลาวด์ใด ๆ ก็ได้ และมอบประสบการณ์ที่ยอดเยี่ยมและสม่ำเสมอให้กับผู้ใช้งานด้วยค่าใช้จ่ายที่เหมาะสม องค์กรต่างต้องการแพลตฟอร์มการอนุมานที่เป็นสากล เป็นมาตรฐานให้กับนวัตกรรม AI ประสิทธิภาพสูงได้อย่างไม่ติดขัด ทั้งในวันนี้และอีกหลาย ๆ ปีที่จะตามมา เพื่อปลดล็อกศักยภาพที่แท้จริงจากการลงทุนด้าน gen AI
เร้ดแฮทพร้อมที่จะวางฐานรากสถาปัตยกรรมเพื่อเป็นฐานอนาคตของการอนุมาน AI เช่นเดียวกับการที่บริษัทฯ เคยบุกเบิกองค์กรแบบเปิดด้วยการทรานส์ฟอร์ม Linux ให้เป็นฐานของไอทียุคใหม่ ศักยภาพของ vLLM เป็นสิ่งสำคัญต่อการอนุมาน gen AI ที่เป็นมาตรฐาน เร้ดแฮทมุ่งมั่นสร้างระบบนิเวศที่ครบครันให้กับไม่เพียง vLLM community เท่านั้น แต่ยังรวมถึง llm-d สำหรับการอนุมานแบบกระจาย (distributed inference) อีกด้วย ด้วยวิสัยทัศน์ที่ชัดเจน ไม่ว่าจะเป็นโมเดล AI, underlying accelerator หรือสภาพแวดล้อมการใช้งานจะเป็นเช่นไร เร้ดแฮทตั้งใจทำให้ vLLM เป็นมาตรฐานเปิดที่สมบูรณ์แบบที่สุดสำหรับการอนุมานบนไฮบริดคลาวด์