许可证:gemma
库名称:transformers
流水线标签:文本生成
额外授权标题:在Hugging Face上访问Gemma
额外授权提示:
要访问Hugging Face上的Gemma,您需要审阅并同意Google的使用许可。请确保已登录Hugging Face账号并点击下方按钮。请求将即时处理。
额外授权按钮内容:确认许可
标签:
- 对话式
基础模型:google/gemma-2-2b-it
语言:
- 日语
Gemma 2 JPN模型卡
资源与技术文档:
使用条款:条款
作者:Google
模型信息
输入输出的简要说明与定义。
描述
Gemma是一系列顶尖的开放模型,灵感源自Gemini模型家族的技术传承。它们是具有开放权重的纯解码器文本到文本大语言模型,适用于问答、摘要和推理等多种文本生成任务。
Gemma-2-JPN是基于日语文本微调的Gemma 2 2B模型,其日语处理能力与Gemma 2的英语查询性能相当。
使用方法
安装Transformers库后,可通过以下代码快速使用模型:
pip install -U transformers
使用pipeline
API
import torch
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="google/gemma-2-2b-jpn-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda",
)
messages = [
{"role": "user", "content": "マシーンラーニングについての詩を書いてください。"},
]
outputs = pipe(messages, return_full_text=False, max_new_tokens=256)
print(outputs[0]["generated_text"].strip())
示例输出
## マシーンラーニングの詩
(诗歌内容省略...)
单GPU/多GPU运行
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-2b-jpn-it",
device_map="auto",
torch_dtype=torch.bfloat16,
)
(代码后续省略...)
输入输出
- 输入:文本字符串(如问题、提示或待总结文档)
- 输出:生成的日语文本(如问题答案或文档摘要)
模型数据
训练数据集
80亿token的多样化数据,包括:
- 网络文档(主要为英语)
- 代码
- 数学文本
- 大规模高质量日语/多语言指令数据
数据预处理
- CSAM过滤
- 敏感数据过滤
- 基于内容质量和安全性的策略过滤
实现信息
硬件
使用TPUv5p硬件训练,优势包括:
- 专为机器学习矩阵运算设计
- 大内存支持大批量训练
- 通过TPU Pods实现可扩展性
软件
基于JAX和ML Pathways框架训练,支持:
- 跨任务泛化的AI系统开发
- 单一Python进程控制整个训练流程
评估
日语提示评估结果(vs GPT-3.5):
指标 |
Gemma-2-IT |
Gemma-2-IT-JPN |
偏好得分 |
-0.25 |
0.03 |
语言正确率 |
86.47% |
98.24% |
伦理与安全
评估方法
包括:
- 文本内容安全评估(暴力、仇恨言论等)
- 表征性危害基准测试
- 训练数据记忆化检测
- 大规模危害能力测试(如CBRN风险)
使用限制
适用场景
- 内容创作(诗歌、脚本、营销文案等)
- 聊天机器人
- 研究教育(NLP研究、语言学习工具等)
局限性
- 训练数据偏差可能影响输出
- 对模糊语言/常识推理存在局限
- 可能生成不准确事实
伦理风险与缓解
- 偏见:持续监控+去偏技术
- 有害内容:安全机制+开发者指南
- 恶意使用:技术限制+用户教育
- 隐私:训练数据已过滤PII
优势
当前版本在同类模型中具有:
- 高性能开源实现
- 负责任AI设计基础
- 明确的禁止使用政策链接