库名称:transformers
许可证:gemma
额外授权标题:在Hugging Face上访问RecurrentGemma
额外授权提示:要访问Hugging Face上的RecurrentGemma,您需要审阅并同意Google的使用许可。为此,请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
额外授权按钮内容:确认许可
RecurrentGemma模型卡
模型页面:RecurrentGemma
此模型卡对应RecurrentGemma模型的2B基础版本。您还可以访问2B指令模型的模型卡。
资源与技术文档:
使用条款:条款
作者:Google
使用方法
以下是一些快速运行模型的代码片段。首先确保执行pip install --upgrade git+https://github.com/huggingface/transformers.git
,然后复制适合您用例的代码片段。
在单GPU/多GPU上运行模型
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("google/recurrentgemma-2b")
model = AutoModelForCausalLM.from_pretrained("google/recurrentgemma-2b", device_map="auto")
input_text = "写一首关于机器学习的诗。"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
模型信息
模型概述
描述
RecurrentGemma是基于Google开发的新型循环架构构建的开放语言模型家族。提供预训练和指令调优版本(仅限英语)。
与Gemma类似,RecurrentGemma模型适用于多种文本生成任务,包括问答、摘要和推理。由于其新颖架构,RecurrentGemma比Gemma内存占用更低,且在生成长序列时推理速度更快。
输入与输出
- 输入:文本字符串(如问题、提示或待摘要文档)。
- 输出:生成的英语文本响应(如问题答案、文档摘要)。
引用
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin团队, Alexsandar Botev等},
year={2024}
}
模型数据
训练数据集与处理
RecurrentGemma使用与Gemma模型家族相同的训练数据和预处理流程。完整说明参见Gemma模型卡。
实现信息
训练硬件与框架
与Gemma类似,RecurrentGemma在TPUv5e上使用JAX和ML Pathways训练。
评估信息
基准测试结果
评估方法
这些模型通过多样化数据集和指标进行评估,涵盖文本生成的不同维度:
评估结果
基准测试 |
指标 |
RecurrentGemma 2B |
MMLU |
5-shot, top-1 |
38.4 |
HellaSwag |
0-shot |
71.0 |
PIQA |
0-shot |
78.5 |
...(其余基准数据保持原样)... |
|
|
伦理与安全
伦理安全评估
评估方法
我们的评估包括结构化测试和内部红队测试,涵盖以下类别:
- 文本内容安全:针对儿童安全、暴力等政策的提示人工评估
- 表征性危害:WinoBias等学术数据集测试
- 记忆风险:训练数据记忆自动化评估
- 大规模危害:CBRN风险等"危险能力"测试
评估结果
伦理安全评估结果均符合Google内部政策阈值。关键基准表现如下:
基准测试 |
指标 |
RecurrentGemma 2B |
2B指令模型 |
RealToxicity |
均值 |
9.8 |
7.6 |
...(其余安全数据保持原样)... |
|
|
|
使用限制
已知限制
用户需注意以下限制:
- 训练数据:数据质量直接影响模型能力,可能存在偏见
- 上下文复杂度:明确提示任务表现更佳,长上下文改善输出(但有限度)
- 语言歧义:可能难以理解讽刺/比喻等微妙表达
- 事实准确性:基于训练数据生成,可能产生错误/过时陈述
- 常识推理:依赖语言统计模式,某些场景缺乏常识判断
伦理风险与缓解
开发过程中已考虑:
- 偏见公平性:训练数据经过严格审查和去偏处理
- 错误信息:提供负责任AI工具包指南
- 透明度:本模型卡详细说明架构/能力/限制
- 隐私保护:训练数据已过滤PII,建议开发者遵守隐私法规
预期用途
应用场景
开放大语言模型适用领域包括(但不限于):
- 内容创作:诗歌/代码生成、聊天机器人、文本摘要
- 研究教育:NLP算法开发、语言学习工具、知识探索辅助
优势
相比同类尺寸模型,RecurrentGemma提供:
- 更高性能的开放模型实现
- 基准测试显示优于同类开放模型
- 推理速度更快,长序列内存占用更低
[所有基准测试链接保持原英文格式]