许可证:Apache-2.0
语言:
- 英语
- 中文
- 日语
- 韩语
- 法语
- 阿拉伯语
- 西班牙语
- 葡萄牙语
评估指标:
- 准确率
基础模型:
- BlinkDL/rwkv-7-world
任务标签:文本生成
库名称:transformers
rwkv7-2.9B-world
这是采用闪存线性注意力(flash-linear attention)格式的RWKV-7模型。
模型详情
模型描述
- 开发者: 彭博、张宇、杨松林、张瑞冲
- 资助方: RWKV项目(隶属于LF AI & Data基金会)
- 模型类型: RWKV7
- 支持语言(NLP): 英语
- 许可证: Apache-2.0
- 参数量: 29亿
- 分词器: RWKV World分词器
- 词汇量: 65,536
模型来源
用途
使用此模型前,请安装flash-linear-attention
<= 0.1.2及最新版transformers
:
pip install --no-use-pep517 flash-linear-attention==0.1.2
pip install 'transformers>=4.48.0'
直接使用
您可以像使用其他HuggingFace模型一样使用此模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained('fla-hub/rwkv7-2.9B-world', trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained('fla-hub/rwkv7-2.9B-world', trust_remote_code=True)
model = model.cuda()
prompt = "什么是大语言模型?"
messages = [
{"role": "user", "content": "你是谁?"},
{"role": "assistant", "content": "我是基于GPT-3的模型。"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=1024,
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=False)[0]
print(response)
训练数据
此模型基于World v3数据集训练,总token量达3.119万亿。
训练超参数
- 训练模式: bfloat16,学习率从4e-4至1e-5采用"延迟"余弦衰减,权重衰减0.1(训练中期逐步增加批次大小)
- 最终损失: 1.8745
- 训练token量: 3.119万亿
常见问题
问:safetensors元数据显示为None。
答:升级transformers至>=4.48.0版本:pip install 'transformers>=4.48.0'