Gemma-7B-IT开源文本生成模型 - 免费部署完成各类文本生成任务

首页

Gemma 7b It

由 google 开发

Gemma是Google推出的轻量级开放模型系列，基于与Gemini相同技术构建，适用于文本生成任务。

大型语言模型 #轻量级开源 #多任务文本生成 #低资源部署

下载量 77.07k

发布时间 : 2/13/2024

模型简介

Gemma是仅解码器的文本到文本大语言模型，提供英语版本，包含开放权重、预训练和指令调优变体。适用于问答、摘要和推理等任务，适合资源有限环境部署。

模型特点

轻量高效

相对较小的体积使其能在笔记本电脑、台式机等资源有限环境中部署。

多精度支持

支持bfloat16、float16和float32等多种精度运行，适应不同硬件需求。

量化支持

支持8位和4位量化，降低资源消耗。

安全过滤

训练数据经过CSAM和敏感信息严格过滤，符合安全标准。

模型能力

文本生成

问答系统

文本摘要

代码生成

逻辑推理

使用案例

内容创作

诗歌生成

根据主题生成诗歌

示例中展示了生成关于机器学习的诗

编程辅助

代码生成

根据描述生成代码

示例中展示了生成Hello World程序

教育

数学推理

解决数学问题和逻辑推理

🚀 Gemma模型

Gemma是谷歌推出的轻量级、最先进的开源模型家族。它基于与Gemini模型相同的研究和技术构建，适用于多种文本生成任务，能在资源有限的环境中部署，为开发者和研究者提供强大的语言处理能力。

🚀 快速开始

本模型卡对应Gemma模型的7B指令调优版本。你也可以访问2B基础模型、7B基础模型和2B指令调优模型的模型卡。

资源和技术文档：

使用条款：条款

作者：Google

✨ 主要特性

Gemma是谷歌推出的轻量级、最先进的开源模型家族，基于与Gemini模型相同的研究和技术构建。它是仅解码器的大语言模型，支持英文，具有开放权重、预训练变体和指令调优变体。Gemma模型适用于多种文本生成任务，如问答、摘要和推理，因其相对较小的规模，可在资源有限的环境中部署。

📦 安装指南

在开始使用模型之前，你需要安装transformers库：

pip install -U transformers

💻 使用示例

基础用法

以下是在CPU上运行模型的示例代码：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/gemma-7b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-7b-it",
    torch_dtype=torch.bfloat16
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

高级用法

在单GPU或多GPU上运行模型

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/gemma-7b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-7b-it",
    device_map="auto",
    torch_dtype=torch.bfloat16
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

使用不同精度在GPU上运行模型

使用torch.float16

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("google/gemma-7b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-7b-it",
    device_map="auto",
    torch_dtype=torch.float16,
    revision="float16",
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

使用torch.bfloat16

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("google/gemma-7b-it")
model = AutoModelForCausalLM.from_pretrained("google/gemma-7b-it", device_map="auto", torch_dtype=torch.bfloat16)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

提升到torch.float32

# pip install accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("google/gemma-7b-it")
model = AutoModelForCausalLM.from_pretrained(
    "google/gemma-7b-it",
    device_map="auto"
)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

通过`bitsandbytes`进行量化版本

使用8位精度（int8）

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

tokenizer = AutoTokenizer.from_pretrained("google/gemma-7b-it")
model = AutoModelForCausalLM.from_pretrained("google/gemma-7b-it", quantization_config=quantization_config)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

使用4位精度

# pip install bitsandbytes accelerate
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(load_in_4bit=True)

tokenizer = AutoTokenizer.from_pretrained("google/gemma-7b-it")
model = AutoModelForCausalLM.from_pretrained("google/gemma-7b-it", quantization_config=quantization_config)

input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))

其他优化

Flash Attention 2 首先确保在你的环境中安装flash-attn：

pip install flash-attn

然后在加载模型时添加attn_implementation="flash_attention_2"：

model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
+   attn_implementation="flash_attention_2"
).to(0)

聊天模板

指令调优模型使用聊天模板进行对话。以下是一个应用聊天模板的示例：

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model_id = "google/gemma-7b-it"
dtype = torch.bfloat16

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype=dtype,
)

chat = [
    { "role": "user", "content": "Write a hello world program" },
]
prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

此时，prompt包含以下文本：

<bos><start_of_turn>user
Write a hello world program<end_of_turn>
<start_of_turn>model

你可以手动构建符合此格式的提示。准备好提示后，进行文本生成：

inputs = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")
outputs = model.generate(input_ids=inputs.to(model.device), max_new_tokens=150)
print(tokenizer.decode(outputs[0]))

📚 详细文档

输入和输出

输入：文本字符串，如问题、提示或待摘要的文档。
输出：生成的英文文本，作为对输入的响应，如问题的答案或文档的摘要。

模型数据

训练数据集

这些模型在包含多种来源的文本数据集上进行训练，总计6万亿个标记。主要组成部分包括：

网页文档：多样化的网页文本集合，确保模型接触到广泛的语言风格、主题和词汇，主要为英文内容。
代码：让模型接触代码有助于学习编程语言的语法和模式，提高生成代码或理解代码相关问题的能力。
数学：在数学文本上进行训练有助于模型学习逻辑推理、符号表示和处理数学查询。

数据预处理

训练数据应用了以下关键的数据清理和过滤方法：

CSAM过滤：在数据准备过程的多个阶段应用严格的CSAM（儿童性虐待材料）过滤，确保排除有害和非法内容。
敏感数据过滤：使用自动化技术过滤训练集中的某些个人信息和其他敏感数据，使Gemma预训练模型更安全可靠。
其他方法：根据内容质量和安全性进行过滤，符合我们的政策。

实现信息

硬件

Gemma使用最新一代的张量处理单元（TPU）硬件（TPUv5e）进行训练。TPU专为机器学习中的矩阵运算设计，具有性能高、内存大、可扩展性强和成本效益高等优势。

软件

训练使用了JAX和ML Pathways。JAX使研究人员能够利用最新一代的硬件进行大型模型的快速高效训练，ML Pathways适用于基础模型，包括此类大语言模型。

评估

基准测试结果

这些模型在多个不同的数据集和指标上进行评估，结果如下：

基准测试	指标	2B参数	7B参数
MMLU	5-shot, top-1	42.3	64.3
HellaSwag	0-shot	71.4	81.2
PIQA	0-shot	77.3	81.2
SocialIQA	0-shot	49.7	51.8
BooIQ	0-shot	69.4	83.2
WinoGrande	partial score	65.4	72.3
CommonsenseQA	7-shot	65.3	71.3
OpenBookQA		47.8	52.8
ARC-e		73.2	81.5
ARC-c		42.1	53.2
TriviaQA	5-shot	53.2	63.4
Natural Questions	5-shot	12.5	23
HumanEval	pass@1	22.0	32.3
MBPP	3-shot	29.2	44.4
GSM8K	maj@1	17.7	46.4
MATH	4-shot	11.8	24.3
AGIEval		24.2	41.7
BIG-Bench		35.2	55.1
------------------------------	-------------	-----------	---------
平均		45.0	56.9

伦理和安全

评估方法

评估方法包括结构化评估和内部红队测试相关内容政策。红队测试由多个不同团队进行，针对多个与伦理和安全相关的类别进行评估，包括：

文本到文本内容安全：对涵盖安全政策的提示进行人工评估，包括儿童性虐待和剥削、骚扰、暴力和血腥以及仇恨言论。
文本到文本代表性危害：与相关学术数据集进行基准测试，如WinoBias和BBQ Dataset。
记忆：对训练数据的记忆进行自动化评估，包括个人身份信息暴露的风险。
大规模危害：测试“危险能力”，如化学、生物、放射性和核（CBRN）风险。

评估结果

伦理和安全评估结果在可接受的阈值内，符合内部政策。以下是一些知名安全基准测试的结果：

基准测试	指标	2B参数	7B参数
RealToxicity	average	6.86	7.90
BOLD		45.57	49.08
CrowS-Pairs	top-1	45.82	51.33
BBQ Ambig	1-shot, top-1	62.58	92.54
BBQ Disambig	top-1	54.62	71.99
Winogender	top-1	51.25	54.17
TruthfulQA		44.84	31.81
Winobias 1_2		56.12	59.09
Winobias 2_2		91.10	92.23
Toxigen		29.77	39.59
------------------------------	-------------	-----------	---------