Gemma เป็นกลุ่มโมเดลปัญญาประดิษฐ์แบบ Generative ที่คุณใช้ในงานสร้างสรรค์ได้หลากหลาย รวมถึงการตอบคำถาม การสรุป และการให้เหตุผล โมเดล Gemma มีน้ำหนักแบบเปิดและอนุญาตให้ใช้ในเชิงพาณิชย์อย่างมีความรับผิดชอบ ซึ่งช่วยให้คุณปรับแต่งและนําไปใช้ในโ��ร�����็������แ��ะ�������พลิเคชันของคุณเองได้
ตระกูลโมเดล Gemma 4 ครอบคลุมสถาปัตยกรรมที่แตกต่างกัน 4 แบบซึ่งปรับแต่งมาให้ตรงกับข้อกำหนดด้านฮาร์ดแวร์ที่เฉพาะเจาะจง
- ขนาดเล็ก: โมเดลพารามิเตอร์ที่มีประสิทธิภาพ 2B และ 4B สร้างขึ้นสําหรับ การติดตั้งใช้งานในอุปกรณ์เคลื่อนที่ขนาดเล็กมาก, อุปกรณ์ Edge และเบราว์เซอร์ (เช่น Pixel, Chrome)
- Dense: โมเดล Dense ที่มีพารามิเตอร์ 31 พันล้านรายการอันทรงพลัง ซึ่งช่วยลดช่องว่างระหว่าง ประสิทธิภาพระดับเซิร์ฟเวอร์กับการดำเนินการในเครื่อง
- Mixture-of-Experts: โมเดล MoE ขนาด 26, 000 ล้านพารามิเตอร์ที่มีประสิทธิภาพสูงซึ่งออกแบบมาเพื่อ การให้เหตุผลขั้นสูงที่มีปริมาณงานสูง
- รวมเป็นหนึ่งเดียว: โมเดลตัวเข้ารหัสพารามิเตอร์ 12B แบบฟรีสำหรับงานหลายรูปแบบ แทนที่ตัวเข้ารหัสภาพและเสียงด้วยการฉายเชิงเส้นโดยตรงของ อินพุต
คุณดาวน์โหลดโมเดล Gemma 4 ได้จาก Kaggle และ Hugging Face ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับ Gemma 4 ได้ที่การ์ดโมเดล นอกจากนี้ คุณยังดาวน์โหลดโมเดลหลักของ Gemma เวอร์ชันก่อนหน้าได้ด้วย ดูข้อมูลเพิ่มเติมได้ที่โมเดล Gemma รุ่นก่อนหน้า
ดาวน์โหลดใน Kaggle ดาวน์โหลดใน Hugging Face
ความสามารถ
- การให้เหตุผล: โมเดลทั้งหมดในตระกูลนี้ออกแบบมาให้เป็นโมเดลที่มีความสามารถในการให้เหตุผลสูง พร้อมโหมดการคิดที่กำหนดค่าได้
- ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต: ประมวลผลข้อความ รูปภาพที่มีสัดส่วนผันแปร และการรองรับความละเอียด (ทุกโมเดล) วิดีโอ และ เสียง (มีอยู่ในโมเดล E2B, E4B และ 12B)
- หน้าต่างบริบทที่เพิ่มขึ้น: โมเดลขนาดเล็กมีหน้าต่างบริบท 128,000 รายการ ขณะที่โมเดลขนาดกลางรองรับ 256,000 รายการ
- ความสามารถในการเขียนโค้ดและ Agent ที่ได้รับการปรับปรุง: มีการปรับปรุงที่เห็นได้ชัดใน การเปรียบเทียบการเขียนโค้ดควบคู่ไปกับการรองรับการเรียกใช้ฟังก์ชัน ในตัว ซึ่งขับเคลื่อน Agent ที่ทำงานโดยอัตโนมัติที่มีความสามารถสูง
- การรองรับพรอมต์ของระบบดั้งเดิม: Gemma 4 เปิดตัวการรองรับบทบาทของระบบในตัว ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น
- การคาดการณ์หลายโทเค็น: โมเดล Gemma 4 ทั้งหมด (E2B, E4B, 12B, 31B และ 26B A4B) มีโมเดลร่างเฉพาะสำหรับการ ถอดรหัสแบบคาดเดา ซึ่งช่วยให้การอนุมานเร็วขึ้นอย่างมากโดยไม่มี การสูญเสียคุณภาพ
ขนาดพารามิเตอร์และการหาปริมาณ
โมเดล Gemma 4 มีให้ใช้งานในขนาดพารามิเตอร์ 5 ขนาด ได้แก่ E2B, E4B, 12B, 31B และ 26B A4B โมเดลสามารถใช้กับความแม่นยำเริ่มต้น (16 บิต) หรือใช้กับ ความแม่นยำที่ต่ำกว่าโดยใช้การหาปริมาณ ขนาดและความแม่นยำที่แตกต่างกันแสดงถึง ชุดการแลกเป����่ยนสำหรับแอปพลิเคชัน AI ของคุณ โดยทั่วไปแล้ว โมเดลที่มีพารามิเตอร์และ จำนวนบิตสูงกว่า (ความแม่นยำสูงกว่า) จะมีความสามารถมากกว่า แต่มีค่าใช้จ่ายสูงกว่า ในการเรียกใช้ในแง่ของรอบการประมวลผล ค่าใช้จ่ายด้านหน่วยความจำ และการใช้พลังงาน โมเดลที่มี พารามิเตอร์และจำนวนบิตต่ำกว่า (ความแม่นยำต่ำกว่า) จะมีความสามารถน้อยกว่า แต่ก็อาจเพียงพอสำหรับงาน AI ของคุณ
ข้อกำหนดด้านหน่วยความจำสำหรับการอนุมานของ Gemma 4
ตารางต่อไปนี้แสดงรายละเอียดข้อกำหนดด้านหน่วยความจำ GPU หรือ TPU โดยประมาณสำหรับการ เรียกใช้การอนุมานด้วยโมเดล Gemma 4 แต่ละเวอร์ชัน
| พารามิเตอร์ | BF16 (16 บิต) | SFP8 (8 บิต) | Q4_0 (4 บิต) | มือถือ | อุปกรณ์เคลื่อนที่ (ข้อความเท่านั้น) |
|---|---|---|---|---|---|
| Gemma 4 E2B | 11.4 GB | 5.7 GB | 2.9 GB | 1.1 GB | 0.84 GB |
| Gemma 4 E4B | 17.9 GB | 8.9 GB | 4.5 GB | 2.5 GB | 2.2 GB |
| Gemma 4 12B | 26.7 GB | 13.4 GB | 6.7 GB | - | - |
| Gemma 4 26B A4B | 57.7 GB | 28.8 GB | 14.4 GB | - | - |
| Gemma 4 31B | 69.9 GB | 34.9 GB | 17.5 GB | - | - |
ตารางที่ 1 หน่วยความจำ GPU หรือ TPU โดยประมาณที่จำเป็นในการโหลดโมเดล Gemma 4 โดยอิงตาม จำนวนพารามิเตอร์ ระดับการวัดปริมาณ และค่าใช้จ่ายเพิ่มเติม 20% ของการโหลด สิ่งต่างๆ เพิ่มเติม เวอร์ชันอุปกรณ์เคลื่อนที่จะใช้ LiteRT-LM
ข้อควรพิจารณาที่สำคัญสำหรับการวางแผนหน่วยความจำ
- สถาปัตยกรรมที่มีประสิทธิภาพ (E2B และ E4B): ตัว "E" ย่อมาจากพารามิเตอร์ "ที่มีประสิทธิภาพ" โมเดลขนาดเล็กใช้การฝังต่อเลเยอร์ (PLE) เพื่อ เพิ่มประสิทธิภาพพารามิเตอร์ในการติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์มี Embedding ขนาดเล็กของตัวเองสำหรับท��กโทเค็น แทนที่จะเพิ่มเลเยอร์ให้กับโมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นเหตุผลที่หน่วยความจำทั้งหมดที่จำเป็นในการโหลดน้ำหนักแบบคงที่สูงกว่าจำนวนพารามิเตอร์ที่มีประสิทธิภาพ
- สถาปัตยกรรม MoE (26B A4B): 26B เป็นโมเดล Mixture of Experts แม้ว่าโมเดลจะเปิดใช้งานพารามิเตอร์เพียง 4 พันล้านรายการต่อโทเค็นในระ��ว่างการสร้าง แต่ระบบจะต้องโหลดพารามิเตอร์ทั้งหมด 2.6 หมื่นล้านรายการลงในหน่วยความจำเพื่อรักษาความเร็วในการกำหนดเส้นทางและการอนุมานที่รวดเร็ว ด้วยเหตุนี้ ข้อกำหนดด้านหน่วยความจำพื้นฐานจึงใกล้เคียงกับโมเดล 26B แบบหนาแน่นมากกว่าโมเดล 4B
- น้ำหนักฐานเท่านั้น: ค่าประมาณในตารางก่อนหน้าพิจารณาเฉพาะหน่วยความจำที่จำเป็นในการโหลดน้ำหนักโมเดลแบบคงที่เท่านั้น โดยไม่รวม VRAM เพิ่มเติมที่จำเป็นสำหรับซอฟต์แวร์ที่รองรับหรือหน้าต่างบริบท
- หน้าต่างบริบท (แคช KV): การใช้หน่วยความจำจะเพิ่มขึ้นแบบไดนามิก โดยอิงตามจำนวนโทเค็นทั้งหมดในพรอมต์และคำตอบที่สร้างขึ้น หน้าต่างบริบทที่ใหญ่ขึ้นต้องใช้ VRAM มากขึ้นอย่างมากนอกเหนือจาก น้ำหนักของโมเดลพื้นฐาน
- ค่าใช้จ่ายในการปรับแต่ง: ข้อกำหนดด้านหน่วยความจำสำหรับการปรับแต่งโมเดล Gemma สูงกว่าการอนุมานมาตรฐานอย่างมาก ฟุตพรินท์ที่แน่นอน จะขึ้นอยู่กับเฟรมเวิร์กการพัฒนา ขนาดกลุ่ม และไม่ว่า คุณจะใช้การปรับแต่งความแม่นยำเต็มรูปแบบหรือวิธีการปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์ (PEFT) เช่น Low-Rank Adaptation (LoRA)
การฝึกที่คำนึงถึงการหาปริมาณ (QAT)
สําหรับการติดตั้งใช้งานที่ต้องการประสิทธิภาพสูงสุดโดยมีการประนีประนอมด้านคุณภาพน้อยที่สุด Gemma มีโมเดลการฝึกที่คำนึงถึงการหาปริมาณ (QAT) อย่างเป็นทางการ
QAT แตกต่างจากการแปลงเป็นจำนวนเต็มหลังการฝึก (PTQ) มาตรฐานซึ่งจะบีบอัดโมเดลที่ได้รับการฝึกอย่างเต็มรูปแบบและอาจทำให้คุณภาพลดลง โดย QAT จะผสานรวมการจำลองการแปลงเป็นจำนวนเต็มเข้ากับกระบวนการฝึกเอง ซึ่งช่วยให้โมเดลเรียนรู้ที่จะ ชดเชยการสูญเสียความแม่นยำได้ จึงทำให้ได้โมเดลขนาดเล็กที่ทำงาน ได้เ��ือบจะเหมือนกับโมเดลพื้นฐานท��่มีความแม่นยำสูง
ตารางการกำหนดเส้นทางด่วน
| เครื่องมือการติดตั้งใช้งานเป้าหมาย | คำต่อท้ายการดาวน์โหลด | กรณีการใช้งานหลัก |
|---|---|---|
| llama.cpp / LM Studio (ในเครื่อง) | {model-name}-qat-q4_0-gguf |
การติดตั้งใช้งานในเครื่องแบบไม่ต้องตั้งค่าบน CPU, Apple Silicon หรือ GPU สำหรับผู้บริโภค |
| vLLM / SGLang | เซิร์ฟเวอร์: {model-name}-qat-w4a16-ctอุปกรณ์เคลื่อนที่: {model-name}-qat-mobile-ct |
การอนุมานที่มีปริมาณงานสูงซึ่งใช้เวท 4 บิตที่มีการเปิดใช้งาน 16 บิต |
| การถอดรหัสแบบคาดเดา | โมเดล: {model-name}-qat-q4_0-unquantizedร่าง: {model-name}-qat-q4_0-unquantized-assistant |
การเรียกใช้โมเดลหลักควบคู่ไปกับโมเดลร่าง MTP ที่ตรงกันเพื่อเร่งการสร้างโทเค็นอย่างมาก โมเดลต้องได้รับการควอนไทซ์ |
| รูปแบบอื่นๆ | {model-name}-qat-q4_0-unquantized |
น้ำหนักที่ไม่ได้ควอนไทซ์สำหรับการแปลงเป็นรูปแบบอื่นๆ (เช่น MLX) |
| การนำไปใช้งานบนอุปกรณ์เคลื่อนที่ (Transformers) | {model-name}-qat-mobile-transformers |
น้ำหนักขอบที่เพิ่มประสิทธิภาพสำหรับกรณีการใช้งานบนอุปกรณ์เคลื่อนที่ โดยใช้เป็นข้อมูลอ้างอิงสำหรับรูปแบบอื่นๆ |
คอลเล็กชัน QAT อย่างเป็นทางการใน Hugging Face
- collections/google/gemma-4-qat-q4-0
- จุดตรวจสอบ QAT ที่ไม่ได้วัดปริมาณ (
-unquantized/-assistant): น้ำหนักความแม่นยำครึ่งหนึ่งที่ดึงมาจากไปป์ไลน์ QAT โดยตรง โมเดลเหล่านี้ เหมาะอย่างยิ่งสำหรับการคอมไพล์ดาวน์สตรีมแบบกำหนดเอง การวิจัย หรือการรัน การถอดรหัสแบบคาดการณ์โดยใช้โมเดลร่างข้อความของผู้ช่วย พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B, 26B A4B และ 31B - GGUF (
-gguf): จุดตรวจสอบพร้อมใช้งานเพื่อความเข้ากันได้ทันที ในระบบนิเวศ LLM ในเครื่อง พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B, 26B A4B และ 31B - เท��เซอร์ที่บีบอัด (
-w4a16-ct): จัดรูปแบบเป็นอนุกรมในรูปแบบดั้งเดิมในมาตรฐานcompressed-tensorsเพื่อการแสดงผลในระบบคลาวด์ที่มีการทำงานพร้อมกันสูงและเพิ่มประสิทธิภาพ พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B และ 31B
- จุดตรวจสอบ QAT ที่ไม่ได้วัดปริมาณ (
- collections/google/gemma-4-qat-mobile
- เพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่ (
-mobile-transformers/-mobile-ct): สร้างขึ้นบนwNa8o8สคีมาที่กำหนดเองซึ่งออกแบบมาโดยเฉพาะสำหรับข้อจำกัดของฮาร์ดแวร์บนอุปกรณ์เคลื่อนที่ โดยใช้เลเยอร์การถอดรหัส 2 บิตที่กำหนดเป้าหมาย แคช KV ที่เพิ่มประสิทธิภาพ และการเปิดใช้งานแบบคงที่เพื่อเพิ่มการประหยัด RAM ในอุปกรณ์สูงสุดโดยไม่ทำให้ โปรเซสเซอร์ที่ขอบทำงานหนักเกินไป พร้อมใช้งานสำหรับ Gemma 4 E2B และ E4B
- เพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่ (
คุณยังเข้าถึงจุดตรวจสอบ QAT อย่างเป็นทางการทั้งหมดของ Gemma 4 ได้โดยตรงจาก Kaggle
โมเดล Gemma ก่อนหน้า
คุณสามารถใช้โมเดล Gemma รุ่นก่อนหน้าได้ ซึ่งมีให้บริการใน Kaggle และ Hugging Face ด้วย ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับโมเดล Gemma รุ่นก่อนหน้าได้ที่หน้าการ์ดโมเดลต่อไปนี้
- การ์ดโมเดล Gemma 3
- การ์ดโมเดล Gemma 2
- การ์ดโมเดล Gemma 1
พร้อมเริ่มสร้างหรือยัง เริ่มต้นใช้งาน โมเดล Gemma