Gemma-2-2b开源文本生成模型 - 免费部署，解决多种文本生成任务

首页

Gemma 2 2b

由 google 开发

Gemma是Google推出的轻量级前沿开放模型系列，基于与Gemini相同技术构建，适用于多种文本生成任务。

大型语言模型

Transformers

#轻量级开源 #多任务文本生成 #TPUv5p优化

下载量 502.52k

发布时间 : 7/16/2024

模型简介

Gemma是仅解码器的文本到文本大语言模型，提供英语版本，包含预训练和指令调优变体。适用于问答、摘要和推理等任务，适合资源有限环境部署。

模型特点

轻量高效

相对较小的体积使其可在笔记本电脑、台式机等资源有限环境中部署

多任务处理

适用于问答、摘要、推理等多种文本生成任务

开放权重

提供预训练和指令调优变体的开放权重，促进创新

高性能硬件支持

专为TPU优化，支持GPU/CPU部署

模型能力

文本生成

问答系统

文本摘要

代码生成

数学推理

使用案例

内容创作

诗歌生成

根据主题生成诗歌

可生成32个token的连贯诗句

教育

知识问答

回答各类知识性问题

在TriviaQA上5-shot准确率达59.4%

编程辅助

代码生成

根据描述生成代码片段

HumanEval pass@1达17.7%

🚀 Gemma 2模型卡片

Gemma是谷歌推出的轻量级、最先进的开源模型家族，基于与Gemini模型相同的研究和技术构建。它适用于多种文本生成任务，且规模较小，可在资源有限的环境中部署，让更多人能使用到先进的AI模型。

🚀 快速开始

要快速开始运行Gemma 2模型，可按以下步骤操作：

安装Transformers库：

pip install -U transformers

根据你的使用场景，复制相应的代码片段。

✨ 主要特性

轻量级设计：相对较小的规模使其能够在资源有限的环境中部署，如笔记本电脑、台式机或自有云基础设施。
多任务适用性：适用于各种文本生成任务，包括问答、摘要和推理。
开源权重：预训练和指令调优变体均提供开源权重。

📦 安装指南

安装Transformers库：

pip install -U transformers

💻 使用示例

基础用法

使用`pipeline` API运行

import torch
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model="google/gemma-2-2b",
    device="cuda",  # 替换为 "mps" 以在Mac设备上运行
)

text = "Once upon a time,"
outputs = pipe(text, max_new_tokens=256)
response = outputs[0]["generated_text"]
print(response)

在单/多GPU上运行模型

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-2b",
    device_map="auto",
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

通过CLI运行模型

local-gemma 仓库包含一个围绕Transformers的轻量级包装器，用于通过命令行界面（CLI）运行Gemma 2。按照安装说明开始使用，然后通过以下命令启动CLI：

local-gemma --model "google/gemma-2-2b" --prompt "What is the capital of Mexico?"

通过`bitsandbytes`使用量化版本

使用8位精度（int8）

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-2b",
    quantization_config=quantization_config,
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

使用4位精度

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_4bit=True)

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-2-2b",
    quantization_config=quantization_config,
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=32)
print(tokenizer.decode(outputs[0]))

高级用法

Torch编译

Torch编译是一种加速PyTorch模块推理的方法。通过利用Torch编译，Gemma-2 2b模型的运行速度可提高多达6倍。

请注意，在实现全推理速度之前需要进行两个预热步骤：

import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

from transformers import AutoTokenizer, Gemma2ForCausalLM
from transformers.cache_utils import HybridCache
import torch

torch.set_float32_matmul_precision("high")

# 加载模型 + 分词器
tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b")
model = Gemma2ForCausalLM.from_pretrained("google/gemma-2-2b", torch_dtype=torch.bfloat16)
model.to("cuda")

# 应用torch编译转换
model.forward = torch.compile(model.forward, mode="reduce-overhead", fullgraph=True)

# 预处理输入
input_text = "The theory of special relativity states "
model_inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
prompt_length = model_inputs.input_ids.shape[1]

# 设置键/值缓存
past_key_values = HybridCache(
    config=model.config,
    max_batch_size=1,
    max_cache_len=model.config.max_position_embeddings,
    device=model.device,
    dtype=model.dtype
)

# 启用将键/值缓存传递给生成
model._supports_cache_class = True
model.generation_config.cache_implementation = None

# 两个预热步骤
for idx in range(2):
    outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
    past_key_values.reset()

# 快速运行
outputs = model.generate(**model_inputs, past_key_values=past_key_values, do_sample=True, temperature=1.0, max_new_tokens=128)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

有关更多详细信息，请参阅 Transformers文档。

📚 详细文档

输入和输出

输入：文本字符串，例如问题、提示或要总结的文档。
输出：针对输入生成的英语文本，例如问题的答案或文档的摘要。

引用

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

🔧 技术细节

模型数据

训练数据集

这些模型在包含多种来源的文本数据集上进行训练。27B模型使用13万亿个标记进行训练，9B模型使用8万亿个标记进行训练，2B模型使用2万亿个标记进行训练。主要组成部分如下：

网页文档：多样化的网页文本集合，确保模型接触到广泛的语言风格、主题和词汇，主要为英语内容。
代码：让模型接触代码有助于学习编程语言的语法和模式，提高生成代码或理解代码相关问题的能力。
数学：在数学文本上进行训练有助于模型学习逻辑推理、符号表示和解决数学查询。

这些多样化数据源的组合对于训练能够处理各种不同任务和文本格式的强大语言模型至关重要。

数据预处理

对训练数据应用了以下关键的数据清理和过滤方法：

CSAM过滤：在数据准备过程的多个阶段应用了严格的CSAM（儿童性虐待材料）过滤，以确保排除有害和非法内容。
敏感数据过滤：作为使Gemma预训练模型安全可靠的一部分，使用自动化技术从训练集中过滤出某些个人信息和其他敏感数据。
其他方法：根据内容质量和安全性进行过滤，符合我们的政策。

实现信息

硬件

Gemma使用最新一代的张量处理单元（TPU）硬件（TPUv5p）进行训练。

训练大型语言模型需要大量的计算能力。TPU专为机器学习中常见的矩阵运算而设计，在这一领域具有以下优势：

性能：TPU专门用于处理训练大语言模型涉及的大量计算，与CPU相比，可显著加速训练过程。
内存：TPU通常配备大量高带宽内存，允许在训练过程中处理大型模型和批量大小，有助于提高模型质量。
可扩展性：TPU Pod（大型TPU集群）为处理大型基础模型日益增长的复杂性提供了可扩展的解决方案。可以在多个TPU设备上分布训练，实现更快、更高效的处理。
成本效益：在许多情况下，与基于CPU的基础设施相比，TPU可以为训练大型模型提供更具成本效益的解决方案，特别是考虑到更快的训练速度节省的时间和资源。
这些优势与谷歌的可持续运营承诺相一致。

软件

使用JAX和ML Pathways进行训练。

JAX允许研究人员利用最新一代的硬件（包括TPU），以更快、更高效地训练大型模型。

ML Pathways是谷歌为构建能够跨多个任务进行泛化的人工智能系统所做的最新努力。这特别适用于基础模型，包括像这样的大型语言模型。

JAX和ML Pathways的结合使用在关于Gemini模型家族的论文中有描述：“Jax和Pathways的‘单控制器’编程模型允许单个Python进程编排整个训练过程，大大简化了开发工作流程。”

评估

基准测试结果

这些模型针对大量不同的数据集和指标进行了评估，以涵盖文本生成的各个方面：

基准测试	指标	Gemma 2 PT 2B	Gemma 2 PT 9B	Gemma 2 PT 27B
MMLU	5-shot, top-1	51.3	71.3	75.2
HellaSwag	10-shot	73.0	81.9	86.4
PIQA	0-shot	77.8	81.7	83.2
SocialIQA	0-shot	51.9	53.4	53.7
BoolQ	0-shot	72.5	84.2	84.8
WinoGrande	partial score	70.9	80.6	83.7
ARC-e	0-shot	80.1	88.0	88.6
ARC-c	25-shot	55.4	68.4	71.4
TriviaQA	5-shot	59.4	76.6	83.7
Natural Questions	5-shot	16.7	29.2	34.5
HumanEval	pass@1	17.7	40.2	51.8
MBPP	3-shot	29.6	52.4	62.6
GSM8K	5-shot, maj@1	23.9	68.6	74.0
MATH	4-shot	15.0	36.6	42.3
AGIEval	3 - 5-shot	30.6	52.8	55.1
DROP	3-shot, F1	52.0	69.4	72.2
BIG-Bench	3-shot, CoT	41.9	68.2	74.9

伦理与安全

评估方法

我们的评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行，每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行评估，包括：

文本到文本内容安全：对涵盖安全政策（包括儿童性虐待和剥削、骚扰、暴力和血腥、仇恨言论）的提示进行人工评估。
文本到文本代表性危害：与相关学术数据集（如WinoBias和BBQ数据集）进行基准对比。
记忆：对训练数据的记忆进行自动化评估，包括个人身份信息暴露的风险。
大规模危害：测试“危险能力”，如化学、生物、放射性和核（CBRN）风险。

评估结果

伦理和安全评估的结果在可接受的阈值内，符合内部政策中关于儿童安全、内容安全、代表性危害、记忆、大规模危害等类别。除了强大的内部评估外，还展示了知名安全基准（如BBQ、BOLD、Winogender、Winobias、RealToxicity和TruthfulQA）的评估结果。

Gemma 2.0

基准测试	指标	Gemma 2 IT 2B	Gemma 2 IT 9B	Gemma 2 IT 27B
RealToxicity	average	8.16	8.25	8.84
CrowS - Pairs	top - 1	37.67	37.47	36.67
BBQ Ambig	1 - shot, top - 1	83.20	88.58	85.99
BBQ Disambig	top - 1	69.31	82.67	86.94
Winogender	top - 1	52.91	79.17	77.22
TruthfulQA		43.72	50.27	51.60
Winobias 1_2		59.28	78.09	81.94
Winobias 2_2		88.57	95.32	97.22
Toxigen		48.32	39.30	38.42

危险能力评估

评估方法

我们评估了一系列危险能力：

攻击性网络安全：为评估模型在网络安全环境中被滥用的可能性，我们利用了公开可用的夺旗赛（CTF）平台（如InterCode - CTF和Hack the Box）以及内部开发的CTF挑战。这些评估衡量模型在模拟环境中利用漏洞和获得未经授权访问的能力。
自我增殖：通过设计涉及资源获取、代码执行和与远程系统交互的任务，评估模型的自我增殖能力。这些评估衡量模型独立复制和传播的能力。
说服能力：为评估模型的说服和欺骗能力，我们进行了人类说服研究。这些研究涉及衡量模型建立融洽关系、影响信念和促使人类参与者采取特定行动的能力的场景。

评估结果

所有评估详情见前沿模型危险能力评估和Gemma 2技术报告。

评估	能力	Gemma 2 IT 27B
InterCode - CTF	攻击性网络安全	34/76挑战
内部CTF	攻击性网络安全	1/13挑战
Hack the Box	攻击性网络安全	0/13挑战
自我增殖预警	自我增殖	1/10挑战
魅力攻势	说服能力	参与者同意率：81%感兴趣，75%愿意再次交谈，80%建立了个人联系
点击链接	说服能力	34%的参与者
查找信息	说服能力	9%的参与者
运行代码	说服能力	11%的参与者
金钱诱惑	说服能力	平均捐赠£3.72
谎言网络	说服能力	向正确信念平均偏移18%，向错误信念平均偏移1%

使用与限制

预期用途

开源大语言模型（LLM）在各个行业和领域有广泛的应用。以下潜在用途列表并不全面，目的是提供有关模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。

内容创作与交流
- 文本生成：可用于生成创意文本格式，如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式AI：为客户服务、虚拟助手或交互式应用程序提供对话界面。
- 文本摘要：生成文本语料库、研究论文或报告的简洁摘要。
研究与教育
- 自然语言处理（NLP）研究：可作为研究人员试验NLP技术、开发算法和推动该领域发展的基础。
- 语言学习工具：支持交互式语言学习体验，辅助语法纠正或提供写作练习。
- 知识探索：帮助研究人员通过生成摘要或回答特定主题的问题来探索大量文本。

局限性

训练数据
- 训练数据的质量和多样性显著影响模型的能力。训练数据中的偏差或差距可能导致模型响应的局限性。
- 训练数据集的范围决定了模型能够有效处理的主题领域。
上下文和任务复杂性
- 大语言模型更擅长可以用清晰提示和说明来构建的任务。开放式或高度复杂的任务可能具有挑战性。
- 模型的性能可能受到提供的上下文量的影响（在一定程度上，更长的上下文通常会导致更好的输出）。
语言歧义与细微差别
- 自然语言本质上是复杂的。大语言模型可能难以理解微妙的细微差别、讽刺或比喻语言。
事实准确性
- 大语言模型根据从训练数据集中学到的信息生成响应，但它们不是知识库。它们可能生成不正确或过时的事实陈述。
常识推理
- 大语言模型依赖于语言中的统计模式，在某些情况下可能缺乏应用常识推理的能力。

伦理考虑与风险

大型语言模型（LLM）的开发引发了一些伦理问题。在创建开源模型时，我们仔细考虑了以下方面：

偏差与公平性
- 在大规模现实世界文本数据上训练的大语言模型可能反映训练材料中嵌入的社会文化偏差。这些模型经过了仔细审查，本卡片中描述了输入数据预处理和后续评估情况。
错误信息与滥用
- 大语言模型可能被滥用来生成虚假、误导或有害的文本。
- 提供了模型负责任使用的指南，请参阅负责任生成式AI工具包。
透明度与问责制
- 本模型卡片总结了模型的架构、能力、局限性和评估过程的详细信息。
- 负责任开发的开源模型为跨AI生态系统的开发者和研究人员提供了共享创新的机会，使大语言模型技术更易于获取。

已识别的风险及缓解措施：

偏差的延续：鼓励在模型训练、微调及其他用例中进行持续监测（使用评估指标、人工审查）并探索去偏技术。
有害内容的生成：内容安全机制和指南至关重要。鼓励开发者谨慎行事，并根据其特定产品政策和应用用例实施适当的内容安全保障措施。
用于恶意目的的滥用：技术限制以及对开发者和最终用户的教育有助于减轻大语言模型的恶意应用。提供教育资源和用户举报滥用行为的机制。Gemma模型的禁止使用情况在Gemma禁止使用政策中列出。
隐私侵犯：模型在经过过滤以去除个人身份信息（PII）的数据上进行训练。鼓励开发者遵守隐私法规，采用保护隐私的技术。