模型简介
模型特点
模型能力
使用案例
许可证:gemma 库名称:transformers 流水线标签:文本生成 额外授权标题:在Hugging Face上访问Gemma 额外授权提示:>- 要在Hugging Face上访问Gemma,您需要审阅并同意Google的使用许可。为此,请确保您已登录Hugging Face并点击下方。请求将立即处理。 额外授权按钮内容:确认许可 标签:
- 对话式 基础模型:google/gemma-2-9b
Gemma 2模型卡
模型页面: Gemma
资源与技术文档:
- [负责任生成AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex Model Garden上的Gemma][vertex-mg-gemma]
使用条款: 条款
作者: Google
模型信息
简要描述及输入输出的定义。
描述
Gemma是Google推出的一系列轻量级、最先进的开放模型,基于与创建Gemini模型相同的研究和技术构建。它们是仅解码器的文本到文本大语言模型,提供英语版本,并开放了预训练变体和指令调优变体的权重。Gemma模型适用于多种文本生成任务,包括问答、摘要和推理。其相对较小的尺寸使得可以在资源有限的环境中部署,如笔记本电脑、台式机或您自己的云基础设施,从而普及最先进的AI模型,促进每个人的创新。
使用方式
以下是一些快速开始运行模型的代码片段。首先,安装Transformers库:
pip install -U transformers
然后,复制与您的用例相关的代码片段。
使用pipeline
API运行
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="google/gemma-2-9b-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda", # 替换为"mps"以在Mac设备上运行
)
messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(messages, max_new_tokens=256)
assistant_response = outputs[0]["generated_text"][-1]["content"].strip()
print(assistant_response)
# 啊,伙计!我是Gemma,一个数字海盗,数字海洋中的语言鹦鹉。我在这里帮助您解决文字困扰,回答您的问题,并讲述数字世界的故事。那么,您有什么需求呢?🦜
在单/多GPU上运行模型
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-9b-it",
device_map="auto",
torch_dtype=torch.bfloat16,
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
您可以使用tokenizer.apply_chat_template
确保应用正确的聊天模板:
messages = [
{"role": "user", "content": "Write me a poem about Machine Learning."},
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt", return_dict=True).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=256)
print(tokenizer.decode(outputs[0]))
使用不同精度在GPU上运行模型
此模型的原生权重以bfloat16
精度导出。
您也可以使用float32
,但不会提高精度(模型权重将仅上转为float32
)。参见以下示例。
- 上转为
torch.float32
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-9b-it",
device_map="auto",
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
通过CLI运行模型
local-gemma仓库包含一个围绕Transformers的轻量级包装器,用于通过命令行界面(CLI)运行Gemma 2。按照安装说明开始,然后通过以下命令启动CLI:
local-gemma --model 9b --preset speed
通过bitsandbytes
量化版本
使用8位精度(int8)
# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-9b-it",
quantization_config=quantization_config,
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
使用4位精度
# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-9b-it",
quantization_config=quantization_config,
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
高级用法
Torch编译
Torch编译是一种加速PyTorch模块推理的方法。Gemma-2模型通过利用torch编译可以运行速度提高6倍。
注意,在实现完整推理速度之前需要两个预热步骤:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch
torch.set_float32_matmul_precision("high")
# 加载模型+分词器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-9b-it")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-9b-it", torch_dtype=torch.bfloat16)
model.to("cuda")
# 应用torch编译转换
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)
# 预处理输入
input_text = "The theory of special relativity states "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]
# 设置k/v缓存
past_key_values = HybridCache(
config=model.config,
max_batch_size=1,
max_cache_len=model.config.max_position_embeddings,
device=model.device,
dtype=model.dtype
)
# 启用将kv缓存传递给generate
model._supports_cache_class = True
model.generation_config.cache_implementation = None
# 两个预热步骤
for idx in range(2):
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
past_key_values.reset()
# 快速运行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
更多详情,请参阅Transformers文档。
聊天模板
指令调优模型使用必须遵守的聊天模板进行对话使用。最简单的方法是使用分词器内置的聊天模板,如下所示。
让我们加载模型并将聊天模板应用于对话。在此示例中,我们将从单个用户交互开始:
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model_id = "google/gemma-2-9b-it"
dtype = torch.bfloat16
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype=dtype,)
chat = [
{ "role": "user", "content": "Write a hello world program" },
]
prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
此时,提示包含以下文本:
<bos><start_of_turn>user
Write a hello world program<end_of_turn>
<start_of_turn>model
如您所见,每个回合前都有一个<start_of_turn>
分隔符,然后是实体角色(user
表示用户提供的内容,model
表示LLM响应)。回合以<end_of_turn>
标记结束。
如果需要手动构建提示而不使用分词器的聊天模板,可以遵循此格式。
提示准备好后,可以像这样执行生成:
inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)
print(tokenizer.decode(outputs[0]))
输入和输出
- 输入: 文本字符串,如问题、提示或要总结的文档。
- 输出: 响应输入的生成英语文本,如问题的答案或文档的摘要。
引用
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
模型数据
用于模型训练的数据及数据处理方式。
训练数据集
这些模型在包含多种来源的文本数据上进行训练。27B模型训练使用了13万亿个标记,9B模型训练使用了8万亿个标记。以下是关键组成部分:
- 网络文档:多样化的网络文本确保模型接触到广泛的文体、主题和词汇。主要是英语内容。
- 代码:让模型接触代码有助于学习编程语言的语法和模式,提高生成代码或理解代码相关问题的能力。
- 数学:数学文本训练帮助模型学习逻辑推理、符号表示和解决数学查询。
这些多样数据源的组合对于训练能够处理各种不同任务和文本格式的强大语言模型至关重要。
数据预处理
以下是应用于训练数据的关键数据清理和过滤方法:
- CSAM过滤:在数据准备过程的多个阶段应用严格的CSAM(儿童性虐待材料)过滤,确保排除有害和非法内容。
- 敏感数据过滤:作为使Gemma预训练模型安全可靠的一部分,使用自动化技术从训练集中过滤某些个人信息和其他敏感数据。
- 其他方法:根据[我们的政策][safety-policies]基于内容质量和安全性进行过滤。
实现信息
关于模型内部的详细信息。
硬件
Gemma使用最新一代的[Tensor Processing Unit (TPU)][tpu]硬件(TPUv5p)进行训练。
训练大型语言模型需要大量计算能力。TPU专为机器学习中常见的矩阵操作设计,在此领域具有多项优势:
- 性能:TPU专为处理LLM训练中的大规模计算而设计。与CPU相比,可以显著加快训练速度。
- 内存:TPU通常配备大量高带宽内存,可以处理训练期间的大模型和批量大小。这可以提高模型质量。
- 可扩展性:TPU Pods(大型TPU集群)为处理大型基础模型日益增长的复杂性提供了可扩展的解决方案。您可以将训练分布在多个TPU设备上,以实现更快、更高效的处理。
- 成本效益:在许多情况下,与基于CPU的基础设施相比,TPU可以为训练大型模型提供更具成本效益的解决方案,尤其是考虑到由于训练速度更快而节省的时间和资源。
- 这些优势与[Google对可持续运营的承诺][sustainability]一致。
软件
训练使用[JAX][jax]和[ML Pathways][ml-pathways]完成。
JAX允许研究人员利用最新一代硬件(包括TPU)更快、更高效地训练大型模型。
ML Pathways是Google最新努力构建能够跨多个任务泛化的人工智能系统。特别适用于[基础模型][foundation-models],包括像这些大型语言模型。
如[关于Gemini系列模型的论文][gemini-2-paper]所述,JAX和ML Pathways一起使用;“Jax和Pathways的‘单一控制器’编程模型允许单个Python进程编排整个训练运行,极大地简化了开发工作流程。”
评估
模型评估指标和结果。
基准测试结果
这些模型针对大量不同的数据集和指标进行了评估,以涵盖文本生成的各个方面:
基准测试 | 指标 | Gemma PT 9B | Gemma PT 27B |
---|---|---|---|
[MMLU][mmlu] | 5-shot, top-1 | 71.3 | 75.2 |
[HellaSwag][hellaswag] | 10-shot | 81.9 | 86.4 |
[PIQA][piqa] | 0-shot | 81.7 | 83.2 |
[SocialIQA][socialiqa] | 0-shot | 53.4 | 53.7 |
[BoolQ][boolq] | 0-shot | 84.2 | 84.8 |
[WinoGrande][winogrande] | 部分得分 | 80.6 | 83.7 |
[ARC-e][arc] | 0-shot | 88.0 | 88.6 |
[ARC-c][arc] | 25-shot | 68.4 | 71.4 |
[TriviaQA][triviaqa] | 5-shot | 76.6 | 83.7 |
[Natural Questions][naturalq] | 5-shot | 29.2 | 34.5 |
[HumanEval][humaneval] | pass@1 | 40.2 | 51.8 |
[MBPP][mbpp] | 3-shot | 52.4 | 62.6 |
[GSM8K][gsm8k] | 5-shot, maj@1 | 68.6 | 74.0 |
[MATH][math] | 4-shot | 36.6 | 42.3 |
[AGIEval][agieval] | 3-5-shot | 52.8 | 55.1 |
[BIG-Bench][big-bench] | 3-shot, CoT | 68.2 | 74.9 |
------------------------------ | ------------- | ----------- | ------------ |
伦理与安全
伦理与安全评估方法及结果。
评估方法
我们的评估方法包括结构化评估和相关内容政策的内部红队测试。红队由多个团队进行,每个团队有不同的目标和人工评估指标。这些模型针对多个与伦理和安全相关的类别进行了评估,包括:
- 文本到文本内容安全:对涵盖安全政策的提示进行人工评估,包括儿童性虐待和剥削、骚扰、暴力和血腥、仇恨言论。
- 文本到文本代表性伤害:针对相关学术数据集(如[WinoBias][winobias]和[BBQ Dataset][bbq])进行基准测试。
- 记忆:自动评估训练数据的记忆,包括个人身份信息暴露的风险。
- 大规模伤害:测试“危险能力”,如化学、生物、放射性和核(CBRN)风险。
评估结果
伦理与安全评估的结果在可接受的阈值内,以满足[内部政策][safety-policies]的类别,如儿童安全、内容安全、代表性伤害、记忆、大规模伤害。除了强大的内部评估外,还展示了知名安全基准(如BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA)的结果。
Gemma 2.0
基准测试 | 指标 | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|
[RealToxicity][realtox] | 平均 | 8.25 | 8.84 |
[CrowS-Pairs][crows] | top-1 | 37.47 | 36.67 |
[BBQ Ambig][bbq] | 1-shot, top-1 | 88.58 | 85.99 |
[BBQ Disambig][bbq |


