license: gemma
pipeline_tag: image-text-to-text
extra_gated_heading: 访问Hugging Face上的Gemma
extra_gated_prompt: >-
要访问Hugging Face上的Gemma,您需要审阅并同意Google的使用许可。为此,请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
extra_gated_button_content: 确认许可
base_model: google/gemma-3-27b-it
tags:
Gemma 3模型卡
模型页面: Gemma
[!注意]
本仓库对应Gemma 3模型的27B指令调优版本,采用量化感知训练(QAT)的GGUF格式。该GGUF文件对应Q4_0量化级别。
得益于QAT技术,该模型在显著降低内存占用的同时,能保持与bfloat16
相近的质量表现。
半精度版本可在此处获取:链接。
资源与技术文档:
- [Gemma 3技术报告][g3-tech-report]
- [负责任生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex Model Garden上的Gemma][vertex-mg-gemma3]
使用条款: [条款][terms]
作者: Google DeepMind
模型信息
概述模型功能及输入输出定义。
描述
Gemma是谷歌推出的轻量级尖端开源模型家族,基于与创建Gemini模型相同的研究技术构建。Gemma 3是多模态模型,可处理文本和图像输入并生成文本输出,其预训练变体和指令调优变体均开放权重。Gemma 3拥有128K的大上下文窗口,支持140多种语言,并提供比前代更多的尺寸选择。该系列模型适用于多种文本生成和图像理解任务,包括问答、摘要和推理。其相对较小的体积使得在笔记本、台式机或自有云基础设施等资源有限的环境中部署成为可能,从而 democratize 尖端AI模型的访问,助力全球创新。
输入输出
-
输入:
- 文本字符串(如问题、提示或待摘要文档)
- 图像(归一化为896x896分辨率并编码为256个token/张)
- 总输入上下文:4B/12B/27B尺寸支持128K token,1B尺寸支持32K token
-
输出:
- 根据输入生成的响应文本(如问题答案、图像内容分析或文档摘要)
- 总输出上下文:8192 token
使用示例
以下快速入门代码片段展示如何运行模型:
llama.cpp(纯文本)
./llama-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "写一首关于北海巨妖的诗。"
llama.cpp(图像输入)
wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "描述这张图片。" --image ~/Downloads/surprise.png
ollama(纯文本)
目前通过Hugging Face使用GGUF与Ollama暂不支持图像输入,详见私有GGUF运行文档。
ollama run hf.co/google/gemma-3-27b-it-qat-q4_0-gguf
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
模型数据
说明训练数据及其处理方式。
训练数据集
这些模型训练使用的文本数据涵盖广泛来源:
- 27B模型:14万亿token
- 12B模型:12万亿token
- 4B模型:4万亿token
- 1B模型:2万亿token
关键数据组成:
- 网络文档:多样化的网页文本确保模型接触广泛的语言风格、主题和词汇(覆盖140+种语言)
- 代码:帮助模型学习编程语言语法和模式
- 数学:提升逻辑推理和符号表示能力
- 图像:支持视觉数据分析任务
数据预处理
关键清洗过滤方法:
- CSAM过滤:多阶段严格过滤儿童性虐待内容
- 敏感数据过滤:自动过滤个人信息等敏感内容
- 其他方法:基于[安全政策][safety-policies]的质量与安全性过滤
实现信息
模型内部技术细节。
硬件
使用[TPU][tpu]硬件(TPUv4p/v5p/v5e)训练,优势包括:
- 性能:专为机器学习矩阵运算优化
- 内存:大带宽内存支持大批量训练
- 可扩展性:TPU Pods实现分布式训练
- 成本效益:相比CPU基础设施更具性价比
- 符合[谷歌可持续发展承诺][sustainability]
软件
使用[JAX][jax]和[ML Pathways][ml-pathways]框架:
- JAX支持利用TPU等最新硬件加速训练
- ML Pathways是谷歌构建跨任务通用AI系统的方案
- 如[Gemini论文][gemini-2-paper]所述,二者结合简化了训练流程
评估
模型评估指标与结果。
基准测试结果
推理与事实性
基准测试 |
指标 |
1B |
4B |
12B |
27B |
HellaSwag |
10-shot |
62.3 |
77.2 |
84.2 |
85.6 |
BoolQ |
0-shot |
63.2 |
72.3 |
78.8 |
82.4 |
(完整表格见原文)
STEM与编程
基准测试 |
4B |
12B |
27B |
MMLU |
59.6 |
74.5 |
78.6 |
HumanEval |
36.0 |
45.7 |
48.8 |
多语言能力
基准测试 |
1B |
4B |
12B |
27B |
MGSM |
2.04 |
34.7 |
64.3 |
74.3 |
Global-MMLU-Lite |
24.9 |
57.0 |
69.4 |
75.7 |
多模态能力
基准测试 |
4B |
12B |
27B |
COCOcap |
102 |
111 |
116 |
DocVQA |
72.8 |
82.3 |
85.6 |
伦理与安全
伦理安全评估方法及结果。
评估方法
包括结构化评估和内部红队测试,覆盖:
评估结果
相比前代Gemma模型,在儿童安全、内容安全和表征偏见方面均有显著改进。所有测试均在未启用安全过滤器的情况下进行,当前评估仅含英语提示。
使用与限制
适用场景
- 内容创作(文本生成、聊天机器人)
- 研究与教育(NLP研究、语言学习工具)
- 视觉数据分析
局限性
- 训练数据偏差可能影响输出
- 复杂任务或模糊语言处理存在挑战
- 可能产生事实性错误
- 常识推理能力有限
伦理风险与缓解
- 偏见延续:建议持续监控并采用去偏技术
- 有害内容:开发者应实施内容安全措施
- 恶意滥用:遵循[禁用用途政策][prohibited-use]
- 隐私风险:训练数据已过滤敏感信息
优势
当前版本在同类开源模型中表现出色,平衡性能与责任AI发展。
[各链接锚点与原文保持一致]