rwkv-raven-3b开源大语言模型 - 免费部署，支持无限上下文长度处理

首页

Rwkv Raven 3b

由 RWKV 开发

RWKV是一种结合RNN和Transformer优势的大语言模型，支持高效训练和快速推理，具备无限上下文长度处理能力。

大型语言模型

Transformers

#RNN-Transformer混合架构 #无限上下文长度 #高效显存利用

下载量 273

发布时间 : 5/4/2023

模型简介

RWKV-4 Raven是一个30亿参数的大语言模型，采用独特的RNN-Transformer混合架构，适用于聊天和文本生成任务。

模型特点

高效架构

结合RNN和Transformer优势，支持并行化训练同时保持RNN的高效推理特性

长上下文处理

理论上支持无限长度的上下文处理能力

资源高效

相比传统Transformer模型，训练和推理时更节省显存

模型能力

中文文本生成

多轮对话

长文本理解

创意写作

使用案例

对话系统

智能聊天机器人

构建流畅自然的对话系统

能够进行多轮连贯对话

内容创作

故事生成

根据简短提示生成连贯的长篇故事

生成具有逻辑性的创意内容

🚀 RWKV-4 | 30亿参数聊天版本（Raven）模型卡片

RWKV是一个由Bo Peng领导的项目。你可以在Johan Wind的博客文章这里和这里了解更多关于模型架构的信息。还可以通过加入RWKV Discord服务器来深入了解该项目。

🚀 快速开始

模型简介

以下是来自原始仓库的描述：

RWKV是一种具有Transformer级大语言模型性能的循环神经网络（RNN）。它可以像GPT一样直接进行训练（可并行化）。它融合了RNN和Transformer的优点——性能出色、推理速度快、节省显存、训练速度快、具有“无限”上下文长度，并且能免费生成句子嵌入。

✨ 主要特性

RWKV结合了RNN和Transformer的优势，具备出色的性能、快速的推理速度、节省显存、快速训练、“无限”上下文长度以及免费的句子嵌入等特性。

📦 安装指南

文档未提及安装相关内容，暂不提供。

💻 使用示例

基础用法

将原始权重转换为Hugging Face格式

你可以使用convert_rwkv_checkpoint_to_hf.py脚本，通过指定原始权重的仓库ID、文件名和输出目录来进行转换。你还可以选择通过传递--push_to_hub标志和--model_name参数，将转换后的模型直接推送到Hugging Face Hub。

python convert_rwkv_checkpoint_to_hf.py --repo_id RAW_HUB_REPO --checkpoint_file RAW_FILE --output_dir OUTPUT_DIR --push_to_hub --model_name dummy_user/converted-rwkv

生成文本

你可以使用AutoModelForCausalLM和AutoTokenizer类从模型中生成文本。以下是在不同场景下运行模型的示例： “Raven”模型需要以特定方式进行提示，更多信息请参考集成博客文章。

高级用法

在CPU上运行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-3b")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-3b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt")
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在单个GPU上运行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-3b").to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-3b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在GPU上以半精度运行模型

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-3b", torch_dtype=torch.float16).to(0)
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-3b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))

在多个GPU上运行模型

# pip install accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("RWKV/rwkv-raven-3b", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("RWKV/rwkv-raven-3b")

prompt = "\nIn a shocking finding, scientist discovered a herd of dragons living in a remote, previously unexplored valley, in Tibet. Even more surprising to the researchers was the fact that the dragons spoke perfect Chinese."

inputs = tokenizer(prompt, return_tensors="pt").to(0)
output = model.generate(inputs["input_ids"], max_new_tokens=40)
print(tokenizer.decode(output[0].tolist(), skip_special_tokens=True))