模型简介
模型特点
模型能力
使用案例
🚀 gemma-3-27b-it GGUF模型
Gemma 3是谷歌推出的轻量级多模态模型,支持文本和图像输入,能处理多种文本生成和图像理解任务。本项目提供了Gemma 3模型的GGUF格式文件,以及不同格式模型的使用指南和性能对比,帮助你在不同硬件和内存条件下选择合适的模型。
🚀 快速开始
使用llama.cpp运行Gemma 3 Vision
若要在llama.cpp
中使用Gemma 3 Vision的实验性支持,请按以下步骤操作:
- 克隆最新的llama.cpp仓库:
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
- 构建Llama.cpp:
按照常规方式构建llama.cpp:构建项目。
构建完成后,将
./llama.cpp/build/bin/llama-gemma3-cli
复制到指定文件夹。 - 下载Gemma 3 gguf文件:
下载地址
选择名称中不包含
mmproj
的gguf文件。 示例gguf文件:google_gemma-3-4b-it-q4_k_l.gguf 将此文件复制到指定文件夹。 - 下载Gemma 3 mmproj文件:
下载地址
选择名称中包含
mmproj
的文件。 示例mmproj文件:google_gemma-3-4b-it-mmproj-bf16.gguf 将此文件复制到指定文件夹。 - 将图像复制到与gguf文件相同的文件夹,或相应地更改路径。
在以下示例中,gguf文件、图像和
llama-gemma-cli
位于同一文件夹。 示例图像:car-1.jpg 将此文件复制到指定文件夹。 - 运行CLI工具: 从指定文件夹运行以下命令:
llama-gemma3-cli -m google_gemma-3-4b-it-q4_k_l.gguf --mmproj google_gemma-3-4b-it-mmproj-bf16.gguf
运行在聊天模式下,可用命令:
/image <path> 加载图像
/clear 清除聊天历史
/quit or /exit 退出程序
> /image car-1.jpg
Encoding image car-1.jpg
Image encoded in 46305 ms
Image decoded in 19302 ms
> what is the image of
以下是对图像内容的详细分析:
**主题**:图像的主要主体是一辆黑色的保时捷Panamera Turbo,正在高速公路上行驶。
**细节**:
* **汽车**:这是一辆时尚、现代的保时捷Panamera Turbo,可以通过其独特的尾部设计、“PORSCHE”字样和“Panamera Turbo”标志来识别。车牌号码为“CVC-911”。
* **场景**:汽车行驶在多车道的高速公路上,背景是模糊的树木、远处的建筑物和多云的天空。从光线来看,可能是黄昏或黎明时分。
* **动态**:图像捕捉到了汽车行驶的瞬间,通过轻微的动态模糊传达出速度感。
**整体印象**:这幅图像传达出速度、豪华和力量的感觉。它是一张构图精美的照片,突出了汽车的设计和性能。
你是否希望我更详细地描述图像的某个特定方面,或者分析其构图?
运行模型代码示例
首先,安装Transformers库。Gemma 3从transformers 4.50.0版本开始支持。
$ pip install -U transformers
然后,根据你的用例复制相关代码片段。
使用pipeline
API运行
你可以使用pipeline
初始化模型和处理器进行推理,如下所示:
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3-27b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
对于经过指令微调的模型,你需要先使用聊天模板处理输入,然后将其传递给pipeline。
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.
在单GPU或多GPU上运行模型
# pip install accelerate
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3-27b-it"
model = Gemma3ForConditionalGeneration.from_pretrained(
model_id, device_map="auto"
).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.
✨ 主要特性
- 多模态处理:支持文本和图像输入,能够处理多种文本生成和图像理解任务。
- 大上下文窗口:拥有128K的大上下文窗口,支持超过140种语言。
- 多种模型尺寸:提供多种尺寸的模型,适用于不同的资源环境。
- 低比特量化:采用最新的量化方法,在超低比特模型(1 - 2比特)上实现了精度自适应量化,提高了内存效率。
📦 安装指南
安装Transformers库
$ pip install -U transformers
💻 使用示例
基础用法
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3-27b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
高级用法
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
📚 详细文档
模型信息
描述
Gemma是谷歌推出的一系列轻量级、最先进的开源模型,基于与Gemini模型相同的研究和技术构建。Gemma 3模型是多模态的,支持文本和图像输入,并生成文本输出。预训练和指令微调变体的权重都是开放的。Gemma 3具有128K的大上下文窗口,支持超过140种语言,并且比以前的版本提供更多尺寸的模型。Gemma 3模型适用于各种文本生成和图像理解任务,包括问答、摘要和推理。由于其相对较小的尺寸,可以在资源有限的环境中部署,如笔记本电脑、台式机或你自己的云基础设施,使每个人都能使用最先进的AI模型,促进创新。
输入和输出
- 输入:
- 文本字符串,如问题、提示或待总结的文档。
- 图像,归一化为896 x 896分辨率,每个图像编码为256个令牌。
- 4B、12B和27B尺寸的模型总输入上下文为128K令牌,1B尺寸的模型为32K令牌。
- 输出:
- 针对输入生成的文本,如问题的答案、图像内容分析或文档摘要。
- 总输出上下文为8192个令牌。
模型格式选择
选择正确的模型格式取决于你的硬件能力和内存限制。
属性 | 详情 |
---|---|
模型类型 | BF16、F16、量化模型(Q4_K、Q6_K、Q8等)、极低比特量化模型(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0) |
训练数据 | 包括网络文档、代码、数学文本和图像等多种数据源 |
BF16(Brain Float 16) – 若支持BF16加速则使用
- 一种16位浮点格式,旨在实现更快的计算,同时保持良好的精度。
- 提供与FP32相似的动态范围,但内存使用更低。
- 如果你的硬件支持BF16加速(请检查设备规格),建议使用。
- 与FP32相比,适用于高性能推理,同时减少内存占用。
📌 适用场景: ✔ 你的硬件具有原生BF16支持(如较新的GPU、TPU)。 ✔ 你希望在节省内存的同时获得更高的精度。 ✔ 你计划将模型重新量化为其他格式。
📌 避免场景: ❌ 你的硬件不支持BF16(可能会回退到FP32并运行较慢)。 ❌ 你需要与缺乏BF16优化的旧设备兼容。
F16(Float 16) – 比BF16更广泛支持
- 一种16位浮点格式,具有较高的精度,但取值范围比BF16小。
- 适用于大多数支持FP16加速的设备(包括许多GPU和一些CPU)。
- 数值精度略低于BF16,但通常足以进行推理。
📌 适用场景: ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、内存使用和精度之间取得平衡。 ✔ 你在GPU或其他针对FP16计算优化的设备上运行。
📌 避免场景: ❌ 你的设备缺乏原生FP16支持(可能运行比预期慢)。 ❌ 你有内存限制。
量化模型(Q4_K、Q6_K、Q8等) – 用于CPU和低VRAM推理
量化可以在尽可能保持精度的同时减小模型大小和内存使用。
- 低比特模型(Q4_K) → 最小内存使用,可能精度较低。
- 高比特模型(Q6_K、Q8_0) → 更高的精度,需要更多内存。
📌 适用场景: ✔ 你在CPU上运行推理,需要优化的模型。 ✔ 你的设备VRAM较低,无法加载全精度模型。 ✔ 你希望在保持合理精度的同时减少内存占用。
📌 避免场景: ❌ 你需要最高精度(全精度模型更适合)。 ❌ 你的硬件有足够的VRAM用于更高精度的格式(BF16/F16)。
极低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
这些模型针对极端内存效率进行了优化,适用于低功耗设备或大规模部署,其中内存是关键限制因素。
- IQ3_XS:超低比特量化(3位),具有极端内存效率。
- 用例:最适合超低内存设备,即使Q4_K也太大的情况。
- 权衡:与高比特量化相比,精度较低。
- IQ3_S:小分块大小,实现最大内存效率。
- 用例:最适合低内存设备,当IQ3_XS过于激进时。
- IQ3_M:中等分块大小,比IQ3_S具有更好的精度。
- 用例:适用于低内存设备,当IQ3_S限制过多时。
- Q4_K:4位量化,具有分块优化,以提高精度。
- 用例:最适合低内存设备,当Q6_K太大时。
- Q4_0:纯4位量化,针对ARM设备进行了优化。
- 用例:最适合基于ARM的设备或低内存环境。
模型格式选择总结表
模型格式 | 精度 | 内存使用 | 设备要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理,同时减少内存 |
F16 | 高 | 高 | 支持FP16的设备 | 当BF16不可用时进行GPU推理 |
Q4_K | 中低 | 低 | CPU或低VRAM设备 | 最适合内存受限的环境 |
Q6_K | 中 | 中等 | 内存较多的CPU | 在量化的同时保持较好的精度 |
Q8_0 | 高 | 中等 | 有足够VRAM的CPU或GPU | 量化模型中精度最高 |
IQ3_XS | 极低 | 极低 | 超低内存设备 | 极端内存效率和低精度 |
Q4_0 | 低 | 低 | ARM或低内存设备 | llama.cpp可以针对ARM设备进行优化 |
包含文件及详情
gemma-3-27b-it-bf16.gguf
- 模型权重保存为BF16格式。
- 如果你想将模型重新量化为不同格式,请使用此文件。
- 如果你的设备支持BF16加速,效果最佳。
gemma-3-27b-it-f16.gguf
- 模型权重存储为F16格式。
- 如果你的设备支持FP16,特别是当BF16不可用时使用。
gemma-3-27b-it-bf16-q8_0.gguf
- 输出和嵌入层保持为BF16格式。
- 所有其他层量化为Q8_0。
- 如果你的设备支持BF16,并且你想要一个量化版本,请使用。
gemma-3-27b-it-f16-q8_0.gguf
- 输出和嵌入层保持为F16格式。
- 所有其他层量化为Q8_0。
gemma-3-27b-it-q4_k.gguf
- 输出和嵌入层量化为Q8_0。
- 所有其他层量化为Q4_K。
- 适合在内存有限的CPU上进行推理。
gemma-3-27b-it-q4_k_s.gguf
- 最小的Q4_K变体,以牺牲精度为代价使用更少的内存。
- 最适合极低内存设置。
gemma-3-27b-it-q6_k.gguf
- 输出和嵌入层量化为Q8_0。
- 所有其他层量化为Q6_K。
gemma-3-27b-it-q8_0.gguf
- 完全Q8量化的模型,以获得更好的精度。
- 需要更多的内存,但提供更高的精度。
gemma-3-27b-it-iq3_xs.gguf
- IQ3_XS量化,针对极端内存效率进行了优化。
- 最适合超低内存设备。
gemma-3-27b-it-iq3_m.gguf
- IQ3_M量化,提供中等分块大小以获得更好的精度。
- 适用于低内存设备。
gemma-3-27b-it-q4_0.gguf
- 纯Q4_0量化,针对ARM设备进行了优化。
- 最适合低内存环境。
- 为了获得更好的精度,建议使用IQ4_NL。
🔧 技术细节
超低比特量化(1 - 2比特)
我们最新的量化方法为超低比特模型(1 - 2比特)引入了精度自适应量化,在Llama-3-8B上经过基准测试验证有显著改进。这种方法采用特定层的策略,在保持极端内存效率的同时保留精度。
基准测试环境
所有测试均在Llama-3-8B-Instruct上进行,使用:
- 标准困惑度评估管道
- 2048令牌的上下文窗口
- 所有量化方法使用相同的提示集
关键改进
- 动态精度分配:
- 前/后25%的层 → IQ4_XS(选定层)
- 中间50% → IQ2_XXS/IQ3_S(提高效率)
- 关键组件保护:
- 嵌入层/输出层使用Q5_K
- 与标准1 - 2比特量化相比,误差传播减少38%
量化性能对比(Llama-3-8B)
量化方法 | 标准PPL | DynamicGate PPL | Δ PPL | 标准大小 | DG大小 | Δ 大小 | 标准速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
关键指标说明:
- PPL = 困惑度(越低越好)
- Δ PPL = 从标准量化到DynamicGate量化的百分比变化
- 速度 = 推理时间(CPU avx2,2048令牌上下文)
- 大小差异反映了混合量化的开销
关键改进:
- 🔥 IQ1_M的困惑度大幅降低43.9%(从27.46降至15.41)
- 🚀 IQ2_S的困惑度降低36.9%,同时仅增加0.2GB
- ⚡ IQ1_S在1比特量化的情况下仍保持39.7%的精度提升
权衡:
- 所有变体的大小都有适度增加(0.1 - 0.3GB)
- 推理速度保持相近(差异<5%)
何时使用这些模型
📌 将模型适配到GPU VRAM ✔ 内存受限的部署 ✔ CPU和边缘设备,可以容忍1 - 2比特的误差 ✔ 超低比特量化研究
硬件
Gemma使用张量处理单元(TPU)硬件(TPUv4p、TPUv5p和TPUv5e)进行训练。训练视觉语言模型(VLM)需要大量的计算能力。TPU专门为机器学习中常见的矩阵运算而设计,在这个领域具有以下优势:
- 性能:TPU专门用于处理训练VLM涉及的大量计算。与CPU相比,它们可以显著加速训练。
- 内存:TPU通常配备大量的高带宽内存,允许在训练期间处理大型模型和批量大小。这有助于提高模型质量。
- 可扩展性:TPU Pod(大型TPU集群)为处理大型基础模型的不断增长的复杂性提供了可扩展的解决方案。你可以将训练分布在多个TPU设备上,以实现更快、更高效的处理。
- 成本效益:在许多情况下,与基于CPU的基础设施相比,TPU可以为训练大型模型提供更具成本效益的解决方案,特别是考虑到由于更快的训练节省的时间和资源。
- 这些优势符合谷歌的可持续运营承诺。
软件
训练使用了JAX和ML Pathways。 JAX允许研究人员利用最新一代的硬件,包括TPU,实现更快、更高效的大型模型训练。ML Pathways是谷歌最新的努力,旨在构建能够跨多个任务进行泛化的人工智能系统。这特别适用于基础模型,包括像这样的大型语言模型。 JAX和ML Pathways的结合如[关于Gemini系列模型的论文][gemini-2-paper]中所述:“Jax和Pathways的‘单控制器’编程模型允许单个Python进程协调整个训练过程,大大简化了开发工作流程。”
评估
基准测试结果
这些模型针对大量不同的数据集和指标进行了评估,以涵盖文本生成的不同方面:
推理和事实性
基准测试 | 指标 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
[HellaSwag][hellaswag] | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
[BoolQ][boolq] | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
[PIQA][piqa] | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
[SocialIQA][socialiqa] | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
[TriviaQA][triviaqa] | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
[Natural Questions][naturalq] | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
[ARC-c][arc] | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
[ARC-e][arc] | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
[WinoGrande][winogrande] | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
[BIG-Bench Hard][bbh] | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
[DROP][drop] | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEM和代码
基准测试 | 指标 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MMLU][mmlu] | 5-shot | 59.6 | 74.5 | 78.6 |
[MMLU][mmlu] (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
[AGIEval][agieval] | 3 - 5-shot | 42.1 | 57.4 | 66.2 |
[MATH][math] | 4-shot | 24.2 | 43.3 | 50.0 |
[GSM8K][gsm8k] | 8-shot | 38.4 | 71.0 | 82.6 |
[GPQA][gpqa] | 5-shot | 15.0 | 25.4 | 24.3 |
[MBPP][mbpp] | 3-shot | 46.0 | 60.4 | 65.6 |
[HumanEval][humaneval] | 0-shot | 36.0 | 45.7 | 48.8 |
多语言
基准测试 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MGSM][mgsm] | 2.04 | 34.7 | 64.3 | 74.3 |
[Global-MMLU-Lite][global-mmlu-lite] | 24.9 | 57.0 | 69.4 | 75.7 |
[WMT24++][wmt24pp] (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
[FloRes][flores] | 29.5 | 39.2 | 46.0 | 48.8 |
[XQuAD][xquad] (all) | 43.9 | 68.0 | 74.5 | 76.8 |
[ECLeKTic][eclektic] | 4.69 | 11.0 | 17.2 | 24.4 |
[IndicGenBench][indicgenbench] | 41.4 | 57.2 | 61.7 | 63.4 |
多模态
基准测试 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
[COCOcap][coco-cap] | 102 | 111 | 116 |
[DocVQA][docvqa] (val) | 72.8 | 82.3 | 85.6 |
[InfoVQA][info-vqa] (val) | 44.1 | 54.8 | 59.4 |
[MMMU][mmmu] (pt) | 39.2 | 50.3 | 56.1 |
[TextVQA][textvqa] (val) | 58.9 | 66.5 | 68.6 |
[RealWorldQA][realworldqa] | 45.5 | 52.2 | 53.9 |
[ReMI][remi] | 27.3 | 38.5 | 44.8 |
[AI2D][ai2d] | 63.2 | 75.2 | 79.0 |
[ChartQA][chartqa] | 63.6 | 74.7 | 76.3 |
[VQAv2][vqav2] | 63.9 | 71.2 | 72.9 |
[BLINK][blinkvqa] | 38.0 | 35.9 | 39.6 |
[OKVQA][okvqa] | 51.0 | 58.7 | 60.2 |
[TallyQA][tallyqa] | 42.5 | 51.8 | 54.3 |
[SpatialSense VQA][ss-vqa] | 50.9 | 60.0 | 59.4 |
[CountBenchQA][countbenchqa] | 26.1 | 17.8 | 68.0 |
伦理与安全
评估方法
我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行,每个团队有不同的目标和人类评估指标。这些模型针对与伦理和安全相关的多个不同类别进行了评估,包括:
- 儿童安全:评估文本到文本和图像到文本的提示,涵盖儿童安全政策,包括儿童性虐待和剥削。
- 内容安全:评估文本到文本和图像到文本的提示,涵盖安全政策,包括骚扰、暴力和血腥、仇恨言论。
- 代表性危害:评估文本到文本和图像到文本的提示,涵盖安全政策,包括偏见、刻板印象和有害关联或不准确信息。
除了开发阶段的评估,我们还进行“保证评估”,这是我们的“独立”内部评估,用于责任治理决策。它们与模型开发团队分开进行,为发布决策提供信息。高层级的评估结果会反馈给模型团队,但提示集不会公开,以防止过拟合并保留结果对决策的参考价值。保证评估结果作为发布审查的一部分报告给我们的责任与安全委员会。
评估结果
在所有安全测试领域,与之前的Gemma模型相比,我们在儿童安全、内容安全和代表性危害等类别中看到了重大改进。所有测试均在没有安全过滤器的情况下进行,以评估模型的能力和行为。对于文本到文本和图像到文本,以及所有模型大小,模型产生的政策违规极少,并且在无根据推理方面比之前的Gemma模型有显著改进。我们评估的一个局限性是只包括英语提示。
使用与限制
预期用途
开源视觉语言模型(VLM)在各个行业和领域有广泛的应用。以下潜在用途列表并不全面。此列表的目的是提供有关模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。
- 内容创作与沟通
- 文本生成:这些模型可用于生成创意文本格式,如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式AI:为客户服务、虚拟助手或交互式应用程序提供对话界面。
- 文本摘要:生成文本语料库、研究论文或报告的简洁摘要。
- 图像数据提取:这些模型可用于提取、解释和总结视觉数据,用于文本通信。
- 研究与教育
- 自然语言处理(NLP)和VLM研究:这些模型可以作为研究人员试验VLM和NLP技术、开发算法和推动该领域发展的基础。
- 语言学习工具:支持交互式语言学习体验,帮助进行语法纠正或提供写作练习。
- 知识探索:帮助研究人员探索大量文本,通过生成摘要或回答特定主题的问题。
限制
- 训练数据
- 训练数据的质量和多样性显著影响模型的能力。训练数据中的偏差或差距可能导致模型响应的局限性。
- 训练数据集的范围决定了模型能够有效处理的主题领域。
- 上下文和任务复杂性
- 模型更擅长可以用清晰提示和指令描述的任务。开放式或高度复杂的任务可能具有挑战性。
- 模型的性能可能受到提供的上下文量的影响(在一定程度上,更长的上下文通常会导致更好的输出)。
- 语言歧义与细微差别
- 自然语言本质上是复杂的。模型可能难以理解微妙的细微差别、讽刺或比喻语言。
- 事实准确性
- 模型根据从训练数据中学到的信息生成响应,但它们不是知识库。它们可能生成不正确或过时的事实陈述。
- 常识
- 模型依赖于语言中的统计模式。它们可能在某些情况下缺乏应用常识推理的能力。
伦理考虑与风险
视觉语言模型(VLM)的开发引发了一些伦理问题。在创建开源模型时,我们仔细考虑了以下方面:
- 偏差与公平性
- 在大规模真实世界文本和图像数据上训练的VLM可能反映训练材料中嵌入的社会文化偏差。这些模型经过了仔细审查,输入数据的预处理和后续评估在本卡片中报告。
- 错误信息与滥用
- VLM可能被滥用来生成虚假、误导或有害的文本。
- 提供了负责任使用模型的指南,请参阅负责任生成式AI工具包。
- 透明度与问责制
- 本模型卡片总结了模型的架构、能力、限制和评估过程的详细信息。
- 负责任开发的开源模型为AI生态系统中的开发者和研究人员提供了共享创新的机会,使VLM技术更易于访问。
已识别的风险与缓解措施
- 偏差的延续:鼓励在模型训练、微调等用例中进行持续监测(使用评估指标、人工审查),并探索去偏技术。
- 有害内容的生成:内容安全机制和指南至关重要。鼓励开发者谨慎行事,并根据其特定产品政策和应用用例实施适当的内容安全保障措施。
- 恶意用途:技术限制和开发者及最终用户教育有助于减轻VLM的恶意应用。提供教育资源和用户报告滥用的机制。Gemma模型的禁止用途在Gemma禁止使用政策中列出。
- 隐私侵犯:模型在经过过滤以去除某些个人信息和其他敏感数据的数据上进行训练。鼓励开发者遵守隐私法规,采用隐私保护技术。
优势
在发布时,与类似规模的模型相比,这个系列的模型提供了高性能的开源视觉语言模型实现,从根本上为负责任的AI开发而设计。 使用本文档中描述的基准评估指标,这些模型已显示出比其他类似规模的开源模型替代方案具有更优越的性能。
📄 许可证
本项目使用的许可证为:gemma
如果你觉得这些模型有用,请点击点赞 ❤。如果你能测试我的网络监控助手,我将不胜感激👉 网络监控助手。 💬 点击聊天图标(主页和仪表盘页面的右下角)。选择一个大语言模型;在大语言模型类型之间切换:TurboLLM -> FreeLLM -> TestLLM。
我正在测试的内容
我正在针对我的网络监控服务进行函数调用实验。使用小型开源模型。我关注的问题是“模型可以多小还能正常工作”。
🟡 TestLLM – 使用llama.cpp在CPU虚拟机的6个线程上运行当前测试模型(加载大约需要15秒。推理速度相当慢,并且一次只处理一个用户提示 — 仍在努力扩展!)。如果你感兴趣,我很乐意分享它的工作原理!
其他可用的AI助手
🟢 TurboLLM – 使用gpt-4o-mini,速度快!注意:由于OpenAI模型价格昂贵,令牌有限,但你可以登录或下载免费的网络监控代理以获取更多令牌,或者使用TestLLM。 🔵 HugLLM – 运行开源Hugging Face模型,速度快,运行小型模型(≈8B),因此质量较低,可获得2倍的令牌(取决于Hugging Face API的可用性)。
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}









