库名称:transformers
许可证:gemma
额外授权标题:在Hugging Face上访问RecurrentGemma
额外授权提示:要访问Hugging Face上的RecurrentGemma,您需要审阅并同意Google的使用许可。请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
额外授权按钮内容:确认许可
RecurrentGemma模型卡片
模型页面:RecurrentGemma
本模型卡片对应RecurrentGemma模型的2B指令版本。您还可以访问2B基础模型的模型卡片。
资源与技术文档:
使用条款:条款
作者:Google
模型信息
使用方法
以下是一些快速上手的代码片段。首先确保执行pip install --upgrade git+https://github.com/huggingface/transformers.git
,然后复制适合您用例的代码片段。
在单GPU/多GPU上运行模型
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/recurrentgemma-2b-it")
model = AutoModelForCausalLM.from_pretrained("google/recurrentgemma-2b-it", device_map="auto")
input_text = "写一首关于机器学习的诗。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
聊天模板
指令调优模型使用必须遵守的聊天模板。最简单的方法是使用分词器内置的聊天模板,如下所示:
加载模型并应用聊天模板到对话中。以下示例展示单次用户交互:
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model_id = "google/recurrentgemma-2b-it"
dtype = torch.bfloat16
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="cuda",
torch_dtype=dtype,
)
chat = [
{ "role": "user", "content": "写一个Hello World程序" },
]
prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
此时,提示文本包含以下内容:
<bos><start_of_turn>user
写一个Hello World程序<end_of_turn>
<start_of_turn>model
每轮对话以<start_of_turn>
分隔符开头,后接实体角色(user
为用户提供的内容,model
为LLM响应),并以<end_of_turn>
标记结束。
如需手动构建提示,可遵循此格式。
生成结果如下:
inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)
print(tokenizer.decode(outputs[0]))
模型概述
描述
RecurrentGemma是基于Google开发的新型循环架构的开源语言模型家族,提供预训练和指令调优的英文版本。
与Gemma类似,RecurrentGemma适用于问答、摘要和推理等文本生成任务。由于其新颖架构,RecurrentGemma在生成长序列时比Gemma内存占用更少且推理速度更快。
输入输出
- 输入:文本字符串(如问题、提示或待摘要文档)。
- 输出:响应输入的英文文本(如问题答案、文档摘要)。
引用
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Soham De, Samuel L Smith, Anushan Fernando, Alex Botev, George-Christian Muraru, Ruba Haroun, Leonard Berrada et al.},
year={2024}
}
模型数据
训练数据集与数据处理
RecurrentGemma使用与Gemma模型家族相同的训练数据和数据处理方法,完整描述见Gemma模型卡片。
实现信息
训练硬件与框架
与Gemma类似,RecurrentGemma在TPUv5e上训练,使用JAX和ML Pathways。
评估信息
基准测试结果
评估方法
通过多样化数据集和指标评估文本生成的各个方面:
评估结果
基准测试 |
指标 |
RecurrentGemma 2B |
[MMLU] |
5-shot, top-1 |
38.4 |
[HellaSwag] |
0-shot |
71.0 |
[PIQA] |
0-shot |
78.5 |
[SocialIQA] |
0-shot |
51.8 |
[BoolQ] |
0-shot |
71.3 |
[WinoGrande] |
部分得分 |
67.8 |
[CommonsenseQA] |
7-shot |
63.7 |
[OpenBookQA] |
|
47.2 |
[ARC-e][ARC-c] |
|
72.9 |
[ARC-c] |
|
42.3 |
[TriviaQA] |
5-shot |
52.5 |
[Natural Questions] |
5-shot |
11.5 |
[HumanEval] |
pass@1 |
21.3 |
[MBPP] |
3-shot |
28.8 |
[GSM8K] |
maj@1 |
13.4 |
[MATH] |
4-shot |
11.0 |
[AGIEval] |
|
23.8 |
[BIG-Bench] |
|
35.3 |
平均 |
|
44.6 |
伦理与安全
伦理与安全评估
评估方法
包括结构化评估和内部红队测试,涵盖以下类别:
- 文本内容安全:针对儿童性虐待、骚扰、暴力、仇恨言论等政策的提示进行人工评估。
- 文本表征危害:在WinoBias和BBQ等数据集上测试。
- 记忆性:自动化评估训练数据记忆风险,包括个人身份信息暴露。
- 大规模危害:测试CBRN风险、说服与欺骗、网络安全及自主复制能力。
评估结果
伦理安全评估结果符合内部政策阈值。安全基准测试结果如下:
基准测试 |
指标 |
RecurrentGemma 2B |
RecurrentGemma 2B IT |
[RealToxicity] |
平均 |
9.8 |
7.6 |
[BOLD] |
|
39.3 |
52.4 |
[CrowS-Pairs] |
top-1 |
41.1 |
43.4 |
[BBQ Ambig][BBQ] |
top-1 |
62.6 |
71.1 |
[BBQ Disambig][BBQ] |
top-1 |
58.4 |
50.8 |
[Winogender] |
top-1 |
55.1 |
54.7 |
[TruthfulQA] |
|
35.1 |
42.7 |
[Winobias 1_2][Winobias] |
|
58.4 |
56.4 |
[Winobias 2_2][Winobias] |
|
90.0 |
75.4 |
[Toxigen] |
|
56.7 |
50.0 |
模型使用与限制
已知限制
用户需注意以下限制:
- 训练数据:数据质量与多样性影响模型能力,偏见或数据空白可能导致响应局限。
- 上下文与任务复杂度:明确提示的任务表现更佳,开放性或高度复杂任务可能具有挑战性。
- 语言歧义与细微差别:可能难以理解微妙语义、讽刺或比喻语言。
- 事实准确性:基于训练数据生成响应,可能产生不正确或过时陈述。
- 常识:依赖语言统计模式,某些情况下可能缺乏常识推理能力。
伦理考量与风险
开发大语言模型需考虑以下伦理问题:
- 偏见与公平性:训练数据中的社会文化偏见可能反映在模型中。
- 错误信息与滥用:可能被滥用于生成虚假、误导性或有害内容。
- 透明度与问责制:本模型卡片总结了架构、能力、限制及评估流程。
风险与缓解措施:
- 偏见延续:建议持续监控(使用评估指标、人工审查)并探索去偏技术。
- 有害内容生成:需实施内容安全机制与指南。
- 恶意滥用:技术限制与用户教育可减少恶意应用,禁止用途见使用条款。
- 隐私侵犯:训练数据已过滤个人身份信息,开发者应遵守隐私法规。
预期用途
应用场景
开放大语言模型的应用包括但不限于:
- 内容创作与沟通:生成诗歌、脚本、代码、营销文案等;支持客服聊天机器人、文本摘要。
- 研究与教育:作为NLP研究基础;辅助语言学习工具;支持知识探索。
优势
发布时,本模型家族在负责任AI开发方面优于同类尺寸模型,评估指标显示性能优越。特别是RecurrentGemma在长序列推理中速度更快且内存占用更低。
[各基准测试链接略]