ภาพรวมโมเดล Gemma 4

Gemma เป็นกลุ่มโมเดลปัญญาประดิษฐ์แบบ Generative ที่คุณใช้ในงานสร้างสรรค์ได้หลากหลาย รวมถึงการตอบคำถาม การสรุป และการให้เหตุผล โมเดล Gemma มีน้ำหนักแบบเปิดและอนุญาตให้ใช้ในเชิงพาณิชย์อย่างมีความรับผิดชอบ ซึ่งช่วยให้คุณปรับแต่งและนําไปใช้ในโ��ร�����็������แ��ะ�������พลิเคชันของคุณเองได้

ตระกูลโมเดล Gemma 4 ครอบคลุมสถาปัตยกรรมที่แตกต่างกัน 4 แบบซึ่งปรับแต่งมาให้ตรงกับข้อกำหนดด้านฮาร์ดแวร์ที่เฉพาะเจาะจง

  • ขนาดเล็ก: โมเดลพารามิเตอร์ที่มีประสิทธิภาพ 2B และ 4B สร้างขึ้นสําหรับ การติดตั้งใช้งานในอุปกรณ์เคลื่อนที่ขนาดเล็กมาก, อุปกรณ์ Edge และเบราว์เซอร์ (เช่น Pixel, Chrome)
  • Dense: โมเดล Dense ที่มีพารามิเตอร์ 31 พันล้านรายการอันทรงพลัง ซึ่งช่วยลดช่องว่างระหว่าง ประสิทธิภาพระดับเซิร์ฟเวอร์กับการดำเนินการในเครื่อง
  • Mixture-of-Experts: โมเดล MoE ขนาด 26, 000 ล้านพารามิเตอร์ที่มีประสิทธิภาพสูงซึ่งออกแบบมาเพื่อ การให้เหตุผลขั้นสูงที่มีปริมาณงานสูง
  • รวมเป็นหนึ่งเดียว: โมเดลตัวเข้ารหัสพารามิเตอร์ 12B แบบฟรีสำหรับงานหลายรูปแบบ แทนที่ตัวเข้ารหัสภาพและเสียงด้วยการฉายเชิงเส้นโดยตรงของ อินพุต

คุณดาวน์โหลดโมเดล Gemma 4 ได้จาก Kaggle และ Hugging Face ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับ Gemma 4 ได้ที่การ์ดโมเดล นอกจากนี้ คุณยังดาวน์โหลดโมเดลหลักของ Gemma เวอร์ชันก่อนหน้าได้ด้วย ดูข้อมูลเพิ่มเติมได้ที่โมเดล Gemma รุ่นก่อนหน้า

ดาวน์โหลดใน Kaggle ดาวน์โหลดใน Hugging Face

ความสามารถ

  • การให้เหตุผล: โมเดลทั้งหมดในตระกูลนี้ออกแบบมาให้เป็นโมเดลที่มีความสามารถในการให้เหตุผลสูง พร้อมโหมดการคิดที่กำหนดค่าได้
  • ความสามารถแบบหลายรูปแบบที่ขยายขอบเขต: ประมวลผลข้อความ รูปภาพที่มีสัดส่วนผันแปร และการรองรับความละเอียด (ทุกโมเดล) วิดีโอ และ เสียง (มีอยู่ในโมเดล E2B, E4B และ 12B)
  • หน้าต่างบริบทที่เพิ่มขึ้น: โมเดลขนาดเล็กมีหน้าต่างบริบท 128,000 รายการ ขณะที่โมเดลขนาดกลางรองรับ 256,000 รายการ
  • ความสามารถในการเขียนโค้ดและ Agent ที่ได้รับการปรับปรุง: มีการปรับปรุงที่เห็นได้ชัดใน การเปรียบเทียบการเขียนโค้ดควบคู่ไปกับการรองรับการเรียกใช้ฟังก์ชัน ในตัว ซึ่งขับเคลื่อน Agent ที่ทำงานโดยอัตโนมัติที่มีความสามารถสูง
  • การรองรับพรอมต์ของระบบดั้งเดิม: Gemma 4 เปิดตัวการรองรับบทบาทของระบบในตัว ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น
  • การคาดการณ์หลายโทเค็น: โมเดล Gemma 4 ทั้งหมด (E2B, E4B, 12B, 31B และ 26B A4B) มีโมเดลร่างเฉพาะสำหรับการ ถอดรหัสแบบคาดเดา ซึ่งช่วยให้การอนุมานเร็วขึ้นอย่างมากโดยไม่มี การสูญเสียคุณภาพ

ขนาดพารามิเตอร์และการหาปริมาณ

โมเดล Gemma 4 มีให้ใช้งานในขนาดพารามิเตอร์ 5 ขนาด ได้แก่ E2B, E4B, 12B, 31B และ 26B A4B โมเดลสามารถใช้กับความแม่นยำเริ่มต้น (16 บิต) หรือใช้กับ ความแม่นยำที่ต่ำกว่าโดยใช้การหาปริมาณ ขนาดและความแม่นยำที่แตกต่างกันแสดงถึง ชุดการแลกเป����่ยนสำหรับแอปพลิเคชัน AI ของคุณ โดยทั่วไปแล้ว โมเดลที่มีพารามิเตอร์และ จำนวนบิตสูงกว่า (ความแม่นยำสูงกว่า) จะมีความสามารถมากกว่า แต่มีค่าใช้จ่ายสูงกว่า ในการเรียกใช้ในแง่ของรอบการประมวลผล ค่าใช้จ่ายด้านหน่วยความจำ และการใช้พลังงาน โมเดลที่มี พารามิเตอร์และจำนวนบิตต่ำกว่า (ความแม่นยำต่ำกว่า) จะมีความสามารถน้อยกว่า แต่ก็อาจเพียงพอสำหรับงาน AI ของคุณ

ข้อกำหนดด้านหน่วยความจำสำหรับการอนุมานของ Gemma 4

ตารางต่อไปนี้แสดงรายละเอียดข้อกำหนดด้านหน่วยความจำ GPU หรือ TPU โดยประมาณสำหรับการ เรียกใช้การอนุมานด้วยโมเดล Gemma 4 แต่ละเวอร์ชัน

พารามิเตอร์ BF16 (16 บิต) SFP8 (8 บิต) Q4_0 (4 บิต) มือถือ อุปกรณ์เคลื่อนที่ (ข้อความเท่านั้น)
Gemma 4 E2B 11.4 GB 5.7 GB 2.9 GB 1.1 GB 0.84 GB
Gemma 4 E4B 17.9 GB 8.9 GB 4.5 GB 2.5 GB 2.2 GB
Gemma 4 12B 26.7 GB 13.4 GB 6.7 GB - -
Gemma 4 26B A4B 57.7 GB 28.8 GB 14.4 GB - -
Gemma 4 31B 69.9 GB 34.9 GB 17.5 GB - -

ตารางที่ 1 หน่วยความจำ GPU หรือ TPU โดยประมาณที่จำเป็นในการโหลดโมเดล Gemma 4 โดยอิงตาม จำนวนพารามิเตอร์ ระดับการวัดปริมาณ และค่าใช้จ่ายเพิ่มเติม 20% ของการโหลด สิ่งต่างๆ เพิ่มเติม เวอร์ชันอุปกรณ์เคลื่อนที่จะใช้ LiteRT-LM

ข้อควรพิจารณาที่สำคัญสำหรับการวางแผนหน่วยความจำ

  • สถาปัตยกรรมที่มีประสิทธิภาพ (E2B และ E4B): ตัว "E" ย่อมาจากพารามิเตอร์ "ที่มีประสิทธิภาพ" โมเดลขนาดเล็กใช้การฝังต่อเลเยอร์ (PLE) เพื่อ เพิ่มประสิทธิภาพพารามิเตอร์ในการติดตั้งใช้งานในอุปกรณ์ PLE จะให้เลเยอร์ดีโคดเดอร์แต่ละเลเยอร์มี Embedding ขนาดเล็กของตัวเองสำหรับท��กโทเค็น แทนที่จะเพิ่มเลเยอร์ให้กับโมเดล ตารางการฝังเหล่านี้มีขนาดใหญ่ แต่ใช้สำหรับการค้นหาอย่างรวดเร็วเท่านั้น ซึ่งเป็นเหตุผลที่หน่วยความจำทั้งหมดที่จำเป็นในการโหลดน้ำหนักแบบคงที่สูงกว่าจำนวนพารามิเตอร์ที่มีประสิทธิภาพ
  • สถาปัตยกรรม MoE (26B A4B): 26B เป็นโมเดล Mixture of Experts แม้ว่าโมเดลจะเปิดใช้งานพารามิเตอร์เพียง 4 พันล้านรายการต่อโทเค็นในระ��ว่างการสร้าง แต่ระบบจะต้องโหลดพารามิเตอร์ทั้งหมด 2.6 หมื่นล้านรายการลงในหน่วยความจำเพื่อรักษาความเร็วในการกำหนดเส้นทางและการอนุมานที่รวดเร็ว ด้วยเหตุนี้ ข้อกำหนดด้านหน่วยความจำพื้นฐานจึงใกล้เคียงกับโมเดล 26B แบบหนาแน่นมากกว่าโมเดล 4B
  • น้ำหนักฐานเท่านั้น: ค่าประมาณในตารางก่อนหน้าพิจารณาเฉพาะหน่วยความจำที่จำเป็นในการโหลดน้ำหนักโมเดลแบบคงที่เท่านั้น โดยไม่รวม VRAM เพิ่มเติมที่จำเป็นสำหรับซอฟต์แวร์ที่รองรับหรือหน้าต่างบริบท
  • หน้าต่างบริบท (แคช KV): การใช้หน่วยความจำจะเพิ่มขึ้นแบบไดนามิก โดยอิงตามจำนวนโทเค็นทั้งหมดในพรอมต์และคำตอบที่สร้างขึ้น หน้าต่างบริบทที่ใหญ่ขึ้นต้องใช้ VRAM มากขึ้นอย่างมากนอกเหนือจาก น้ำหนักของโมเดลพื้นฐาน
  • ค่าใช้จ่ายในการปรับแต่ง: ข้อกำหนดด้านหน่วยความจำสำหรับการปรับแต่งโมเดล Gemma สูงกว่าการอนุมานมาตรฐานอย่างมาก ฟุตพรินท์ที่แน่นอน จะขึ้นอยู่กับเฟรมเวิร์กการพัฒนา ขนาดกลุ่ม และไม่ว่า คุณจะใช้การปรับแต่งความแม่นยำเต็มรูปแบบหรือวิธีการปรับแต่งที่มีประสิทธิภาพของพารามิเตอร์ (PEFT) เช่น Low-Rank Adaptation (LoRA)

การฝึกที่คำนึงถึงการหาปริมาณ (QAT)

สําหรับการติดตั้งใช้งานที่ต้องการประสิทธิภาพสูงสุดโดยมีการประนีประนอมด้านคุณภาพน้อยที่สุด Gemma มีโมเดลการฝึกที่คำนึงถึงการหาปริมาณ (QAT) อย่างเป็นทางการ

QAT แตกต่างจากการแปลงเป็นจำนวนเต็มหลังการฝึก (PTQ) มาตรฐานซึ่งจะบีบอัดโมเดลที่ได้รับการฝึกอย่างเต็มรูปแบบและอาจทำให้คุณภาพลดลง โดย QAT จะผสานรวมการจำลองการแปลงเป็นจำนวนเต็มเข้ากับกระบวนการฝึกเอง ซึ่งช่วยให้โมเดลเรียนรู้ที่จะ ชดเชยการสูญเสียความแม่นยำได้ จึงทำให้ได้โมเดลขนาดเล็กที่ทำงาน ได้เ��ือบจะเหมือนกับโมเดลพื้นฐานท��่มีความแม่นยำสูง

ตารางการกำหนดเส้นทางด่วน

เครื่องมือการติดตั้งใช้งานเป้าหมาย คำต่อท้ายการดาวน์โหลด กรณีการใช้งานหลัก
llama.cpp / LM Studio (ในเครื่อง) {model-name}-qat-q4_0-gguf การติดตั้งใช้งานในเครื่องแบบไม่ต้องตั้งค่าบน CPU, Apple Silicon หรือ GPU สำหรับผู้บริโภค
vLLM / SGLang เซิร์ฟเวอร์: {model-name}-qat-w4a16-ct
อุปกรณ์เคลื่อนที่: {model-name}-qat-mobile-ct
การอนุมานที่มีปริมาณงานสูงซึ่งใช้เวท 4 บิตที่มีการเปิดใช้งาน 16 บิต
การถอดรหัสแบบคาดเดา โมเดล: {model-name}-qat-q4_0-unquantized
ร่าง: {model-name}-qat-q4_0-unquantized-assistant
การเรียกใช้โมเดลหลักควบคู่ไปกับโมเดลร่าง MTP ที่ตรงกันเพื่อเร่งการสร้างโทเค็นอย่างมาก โมเดลต้องได้รับการควอนไทซ์
รูปแบบอื่นๆ {model-name}-qat-q4_0-unquantized น้ำหนักที่ไม่ได้ควอนไทซ์สำหรับการแปลงเป็นรูปแบบอื่นๆ (เช่น MLX)
การนำไปใช้งานบนอุปกรณ์เคลื่อนที่ (Transformers) {model-name}-qat-mobile-transformers น้ำหนักขอบที่เพิ่มประสิทธิภาพสำหรับกรณีการใช้งานบนอุปกรณ์เคลื่อนที่ โดยใช้เป็นข้อมูลอ้างอิงสำหรับรูปแบบอื่นๆ

คอลเล็กชัน QAT อย่างเป็นทางการใน Hugging Face

  • collections/google/gemma-4-qat-q4-0
    • จุดตรวจสอบ QAT ที่ไม่ได้วัดปริมาณ (-unquantized / -assistant): น้ำหนักความแม่นยำครึ่งหนึ่งที่ดึงมาจากไปป์ไลน์ QAT โดยตรง โมเดลเหล่านี้ เหมาะอย่างยิ่งสำหรับการคอมไพล์ดาวน์สตรีมแบบกำหนดเอง การวิจัย หรือการรัน การถอดรหัสแบบคาดการณ์โดยใช้โมเดลร่างข้อความของผู้ช่วย พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B, 26B A4B และ 31B
    • GGUF (-gguf): จุดตรวจสอบพร้อมใช้งานเพื่อความเข้ากันได้ทันที ในระบบนิเวศ LLM ในเครื่อง พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B, 26B A4B และ 31B
    • เท��เซอร์ที่บีบอัด (-w4a16-ct): จัดรูปแบบเป็นอนุกรมในรูปแบบดั้งเดิมในมาตรฐาน compressed-tensors เพื่อการแสดงผลในระบบคลาวด์ที่มีการทำงานพร้อมกันสูงและเพิ่มประสิทธิภาพ พร้อมใช้งานสำหรับ Gemma 4 E2B, E4B, 12B และ 31B
  • collections/google/gemma-4-qat-mobile
    • เพิ่มประสิทธิภาพสำหรับอุปกรณ์เคลื่อนที่ (-mobile-transformers / -mobile-ct): สร้างขึ้นบนwNa8o8สคีมาที่กำหนดเองซึ่งออกแบบมาโดยเฉพาะสำหรับข้อจำกัดของฮาร์ดแวร์บนอุปกรณ์เคลื่อนที่ โดยใช้เลเยอร์การถอดรหัส 2 บิตที่กำหนดเป้าหมาย แคช KV ที่เพิ่มประสิทธิภาพ และการเปิดใช้งานแบบคงที่เพื่อเพิ่มการประหยัด RAM ในอุปกรณ์สูงสุดโดยไม่ทำให้ โปรเซสเซอร์ที่ขอบทำงานหนักเกินไป พร้อมใช้งานสำหรับ Gemma 4 E2B และ E4B

คุณยังเข้าถึงจุดตรวจสอบ QAT อย่างเป็นทางการทั้งหมดของ Gemma 4 ได้โดยตรงจาก Kaggle

โมเดล Gemma ก่อนหน้า

คุณสามารถใช้โมเดล Gemma รุ่นก่อนหน้าได้ ซึ่งมีให้บริการใน Kaggle และ Hugging Face ด้วย ดูรายละเอียดทางเทคนิคเพิ่มเติมเกี่ยวกับโมเดล Gemma รุ่นก่อนหน้าได้ที่หน้าการ์ดโมเดลต่อไปนี้

พร้อมเริ่มสร้างหรือยัง เริ่มต้นใช้งาน โมเดล Gemma