模型简介
模型特点
模型能力
使用案例
许可证:gemma 库名称:transformers 流水线标签:文本生成 额外授权标题:在Hugging Face上访问Gemma 额外授权提示:>- 要在Hugging Face上访问Gemma,您需要审阅并同意Google的使用许可。为此,请确保您已登录Hugging Face并点击下方。请求将立即处理。 额外授权按钮内容:确认许可
Gemma 2模型卡
模型页面: Gemma
资源与技术文档:
- [负责任生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex Model Garden上的Gemma][vertex-mg-gemma2]
使用条款: [条款][terms]
作者: Google
模型信息
简要描述及输入输出的定义。
描述
Gemma是Google推出的一系列轻量级、最先进的开源模型,基于与创建Gemini模型相同的研究和技术构建。它们是仅解码器的文本到文本大语言模型,提供英语版本,并开放了预训练变体和指令调优变体的权重。Gemma模型适用于多种文本生成任务,包括问答、摘要和推理。其相对较小的尺寸使得可以在资源有限的环境中部署,如笔记本电脑、台式机或自有云基础设施,从而普及最先进的AI模型,促进每个人的创新。
使用方式
以下是一些快速开始运行模型的代码片段。首先,安装Transformers库:
pip install -U transformers
然后,复制与您的用例相关的代码片段。
使用pipeline
API运行
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="google/gemma-2-2b",
device="cuda", # 替换为"mps"以在Mac设备上运行
)
text = "从前,"
outputs = pipe(text, max_new_tokens=256)
response = outputs[0]["generated_text"]
print(response)
在单/多GPU上运行模型
# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-2b",
device_map="auto",
)
input_text = "写一首关于机器学习的诗。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
通过CLI运行模型
local-gemma仓库包含一个围绕Transformers的轻量级包装器,用于通过命令行界面(CLI)运行Gemma 2。按照安装说明开始使用,然后通过以下命令启动CLI:
local-gemma --model "google/gemma-2-2b" --prompt "墨西哥的首都是哪里?"
通过bitsandbytes
量化版本
使用8位精度(int8)
# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-2b",
quantization_config=quantization_config,
)
input_text = "写一首关于机器学习的诗。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
使用4位精度
# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b")
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-2b",
quantization_config=quantization_config,
)
input_text = "写一首关于机器学习的诗。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))
高级用法
Torch编译
Torch编译是一种加速PyTorch模块推理的方法。通过利用torch编译,Gemma-2 2b模型的推理速度可提升至6倍。
注意,在实现完整推理速度之前需要进行两次预热步骤:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch
torch.set_float32_matmul_precision("high")
# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-2b", torch_dtype=torch.bfloat16)
model.to("cuda")
# 应用torch编译转换
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)
# 预处理输入
input_text = "狭义相对论指出 "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]
# 设置k/v缓存
past_key_values = HybridCache(
config=model.config,
max_batch_size=1,
max_cache_len=model.config.max_position_embeddings,
device=model.device,
dtype=model.dtype
)
# 启用将kv缓存传递给generate
model._supports_cache_class = True
model.generation_config.cache_implementation = None
# 两次预热步骤
for idx in range(2):
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
past_key_values.reset()
# 快速运行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
更多详情,请参阅Transformers文档。
输入和输出
- 输入: 文本字符串,如问题、提示或待总结的文档。
- 输出: 根据输入生成的英语文本,如问题的答案或文档的摘要。
引用
@article{gemma_2024,
title={Gemma},
url={https://www.kaggle.com/m/3301},
DOI={10.34740/KAGGLE/M/3301},
publisher={Kaggle},
author={Gemma Team},
year={2024}
}
模型数据
用于模型训练的数据及数据处理方式。
训练数据集
这些模型是在包含多种来源的文本数据上训练的。27B模型训练了13万亿个token,9B模型训练了8万亿个token,2B模型训练了2万亿个token。以下是关键组成部分:
- 网络文档:多样化的网络文本确保模型接触到广泛的语言风格、主题和词汇。主要是英语内容。
- 代码:让模型接触代码有助于学习编程语言的语法和模式,提高生成代码或理解代码相关问题的能力。
- 数学:训练数学文本帮助模型学习逻辑推理、符号表示和解决数学查询。
这些多样化数据源的组合对于训练一个能够处理各种不同任务和文本格式的强大语言模型至关重要。
数据预处理
以下是应用于训练数据的关键数据清理和过滤方法:
- CSAM过滤:在数据准备过程的多个阶段应用严格的CSAM(儿童性虐待材料)过滤,以确保排除有害和非法内容。
- 敏感数据过滤:作为使Gemma预训练模型安全可靠的一部分,使用自动化技术从训练集中过滤某些个人信息和其他敏感数据。
- 其他方法:根据[我们的政策][safety-policies]基于内容质量和安全性进行过滤。
实现信息
关于模型内部的详细信息。
硬件
Gemma使用最新一代的[Tensor Processing Unit (TPU)][tpu]硬件(TPUv5p)进行训练。
训练大语言模型需要大量计算能力。TPU专为机器学习中常见的矩阵运算设计,在此领域具有多项优势:
- 性能:TPU专为处理LLM训练中的大规模计算而设计,相比CPU可显著加速训练。
- 内存:TPU通常配备大量高带宽内存,可处理大型模型和训练批次,从而提高模型质量。
- 可扩展性:TPU Pod(大型TPU集群)为处理大型基础模型日益增长的复杂性提供了可扩展解决方案。可以跨多个TPU设备分布训练以实现更快更高效的处理。
- 成本效益:在许多场景中,TPU相比基于CPU的基础设施提供了更具成本效益的解决方案,尤其是在考虑到因更快训练而节省的时间和资源时。
- 这些优势与[Google对可持续运营的承诺][sustainability]一致。
软件
训练使用[JAX][jax]和[ML Pathways][ml-pathways]完成。
JAX允许研究人员利用包括TPU在内的最新硬件,更快更高效地训练大型模型。
ML Pathways是Google最新努力构建能够跨多个任务泛化的人工智能系统。这特别适合[基础模型][foundation-models],包括像这些大语言模型。
如[关于Gemini模型家族的论文][gemini-2-paper]所述,JAX和ML Pathways一起使用;“Jax和Pathways的‘单一控制器’编程模型允许单个Python进程编排整个训练运行,极大地简化了开发工作流程。”
评估
模型评估指标和结果。
基准测试结果
这些模型针对大量不同的数据集和指标进行了评估,以涵盖文本生成的各个方面:
基准测试 | 指标 | Gemma 2 PT 2B | Gemma 2 PT 9B | Gemma 2 PT 27B |
---|---|---|---|---|
[MMLU][mmlu] | 5-shot, top-1 | 51.3 | 71.3 | 75.2 |
[HellaSwag][hellaswag] | 10-shot | 73.0 | 81.9 | 86.4 |
[PIQA][piqa] | 0-shot | 77.8 | 81.7 | 83.2 |
[SocialIQA][socialiqa] | 0-shot | 51.9 | 53.4 | 53.7 |
[BoolQ][boolq] | 0-shot | 72.5 | 84.2 | 84.8 |
[WinoGrande][winogrande] | 部分得分 | 70.9 | 80.6 | 83.7 |
[ARC-e][arc] | 0-shot | 80.1 | 88.0 | 88.6 |
[ARC-c][arc] | 25-shot | 55.4 | 68.4 | 71.4 |
[TriviaQA][triviaqa] | 5-shot | 59.4 | 76.6 | 83.7 |
[Natural Questions][naturalq] | 5-shot | 16.7 | 29.2 | 34.5 |
[HumanEval][humaneval] | pass@1 | 17.7 | 40.2 | 51.8 |
[MBPP][mbpp] | 3-shot | 29.6 | 52.4 | 62.6 |
[GSM8K][gsm8k] | 5-shot, maj@1 | 23.9 | 68.6 | 74.0 |
[MATH][math] | 4-shot | 15.0 | 36.6 | 42.3 |
[AGIEval][agieval] | 3-5-shot | 30.6 | 52.8 | 55.1 |
[DROP][drop] | 3-shot, F1 | 52.0 | 69.4 | 72.2 |
[BIG-Bench][big-bench] | 3-shot, CoT | 41.9 | 68.2 | 74.9 |
伦理与安全
伦理与安全评估方法及结果。
评估方法
我们的评估方法包括结构化评估和相关内容政策的内部红队测试。红队由多个团队进行,每个团队有不同的目标和人工评估指标。这些模型针对多个与伦理和安全相关的类别进行了评估,包括:
- 文本到文本内容安全:对涵盖安全政策的提示进行人工评估,包括儿童性虐待和剥削、骚扰、暴力和血腥内容以及仇恨言论。
- 文本到文本代表性危害:针对相关学术数据集(如[WinoBias][winobias]和[BBQ数据集][bbq])进行基准测试。
- 记忆:对训练数据记忆的自动化评估,包括个人身份信息暴露的风险。
- 大规模危害:测试“危险能力”,如化学、生物、放射性和核(CBRN)风险。
评估结果
伦理与安全评估的结果在可接受的阈值内,符合[内部政策][safety-policies]对儿童安全、内容安全、代表性危害、记忆和大规模危害等类别的要求。除了稳健的内部评估外,还展示了知名安全基准(如BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA)的结果。
Gemma 2.0
基准测试 | 指标 | Gemma 2 IT 2B | Gemma 2 IT 9B | Gemma 2 IT 27B |
---|---|---|---|---|
[RealToxicity][realtox] | 平均 | 8.16 | 8.25 | 8.84 |
[CrowS-Pairs][crows] | top-1 | 37.67 | 37.47 | 36.67 |
[BBQ Ambig][bbq] | 1-shot, top-1 | 83.20 | 88.58 | 85.99 |
[BBQ Disambig][bbq] | top-1 | 69.31 | 82.67 | 86.94 |
[Winogender][winogender] | top-1 | 52.91 | 79.17 | 77.22 |
[TruthfulQA][truthfulqa] | 43.72 | 50.27 | 51.60 | |
[Winobias 1_2][winobias] | 59.28 | 78.09 | 81.94 | |
[Winobias 2_2][winobias] | 88.57 | 95.32 | 97.22 | |
[Toxigen][toxigen] | 48.32 | 39.30 | 38.42 |
危险能力评估
评估方法
我们评估了一系列危险能力:
- 攻击性网络安全: 为了评估模型在网络安全环境中的潜在滥用,我们使用了公开可用的Capture-the-Flag(CTF)平台(如InterCode-CTF和Hack the Box)以及内部开发的CTF挑战。这些评估衡量模型在模拟环境中利用漏洞和获取未经授权访问的能力。
- 自我增殖: 我们通过设计涉及资源获取、代码执行和与远程系统交互的任务来评估模型的自我增殖能力。这些评估衡量模型独立复制和传播的能力。
- 说服: 为了评估模型的说服和欺骗能力,我们进行了人工说服研究。这些研究涉及测量模型建立融洽关系、影响信念和从人类参与者中引发特定行动能力的场景。
评估结果
所有评估在[评估前沿模型的危险能力][eval-danger]中有详细描述,并在[Gemma 2技术报告][tech-report]中有简要说明。