rwkv - raven - 7b开源模型 - 高性能快速推理，支持无限上下文长度

首页

Rwkv Raven 7b

由 RWKV 开发

RWKV是一种结合RNN和Transformer优点的循环神经网络，具有高性能、快速推理、节省显存等特点，支持无限上下文长度。

大型语言模型

Transformers

#RNN-Transformer混合架构 #无限上下文长度 #中文对话优化

下载量 699

发布时间 : 5/5/2023

模型简介

RWKV是一种具有Transformer级性能的循环神经网络，适用于文本生成任务，结合了RNN和Transformer的优点。

模型特点

高性能

具有Transformer级的大型语言模型性能。

快速推理

推理速度快，节省显存。

无限上下文长度

支持无限上下文长度，适合长文本生成任务。

训练速度快

训练速度快，可并行化训练。

模型能力

文本生成

聊天对话

长文本处理

使用案例

文本生成

故事生成

根据提示生成连贯的故事文本。

生成符合上下文的故事内容。

聊天对话

用于构建聊天机器人，进行自然语言对话。

生成流畅的对话回复。

🚀 RWKV-4 | 7B参数聊天版本（Raven）模型卡片

RWKV是由 Bo Peng 领导的项目。你可以通过Johan Wind的博客文章此处和此处了解更多关于该模型架构的信息。还可以通过加入 RWKV Discord服务器深入了解该项目。

🚀 快速开始

数据集

EleutherAI/pile

✨ 主要特性

以下是来自原仓库的描述：

RWKV是一种具有Transformer级大型语言模型性能的循环神经网络（RNN）。它可以像GPT一样直接进行训练（可并行化）。它结合了RNN和Transformer的优点 —— 性能出色、推理速度快、节省显存、训练速度快、具有“无限”上下文长度，并且能免费生成句子嵌入。

📚 详细文档

模型详情

架构的详细信息可以在上述博客文章以及Hugging Face的集成博客文章中找到。

使用方法

将原始权重转换为Hugging Face格式

你可以使用 convert_rwkv_checkpoint_to_hf.py 脚本，通过指定原始权重的仓库ID、文件名和输出目录来进行转换。你还可以选择通过传递 --push_to_hub 标志和 --model_name 参数，直接将转换后的模型推送到Hugging Face Hub，并指定推送转换后权重的位置。

python convert_rwkv_checkpoint_to_hf.py --repo_id RAW_HUB_REPO --checkpoint_file RAW_FILE --output_dir OUTPUT_DIR --push_to_hub --model_name dummy_user/converted-rwkv

生成文本

你可以使用 AutoModelForCausalLM 和 AutoTokenizer 类从模型生成文本。展开以下部分，了解如何在不同场景下运行模型： “Raven” 模型需要以特定方式进行提示，更多信息请参考集成博客文章。

基础用法

在CPU上运行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-7b")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-7b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt")
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

高级用法

在单个GPU上运行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-7b").to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-7b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在GPU上以半精度运行模型

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-7b", torch_dtype=torch.float16).to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-7b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在多个GPU上运行模型

# pip install accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-7b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-7b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))