基础模型:
- BlinkDL/rwkv-7-world
支持语言:
- 英语
- 中文
- 日语
- 韩语
- 法语
- 阿拉伯语
- 西班牙语
- 葡萄牙语
许可证: Apache-2.0
评估指标:
- 准确率
任务标签: 文本生成
库名称: transformers
rwkv7-1.5B-world模型
这是采用闪存线性注意力架构的RWKV-7模型。
模型详情
模型描述
- 开发团队: 彭博、张宇、杨松林、张瑞冲
- 资助方: RWKV项目(LF AI & Data基金会旗下)
- 模型类型: RWKV7
- 支持语言: 英语、中文、日语、韩语、法语、阿拉伯语、西班牙语、葡萄牙语
- 许可证: Apache-2.0
- 参数量: 15.2亿
- 分词器: RWKV World分词器
- 词表大小: 65,536
模型来源
使用说明
使用前请安装flash-linear-attention
和最新版transformers
:
pip install git+https://github.com/fla-org/flash-linear-attention
pip install 'transformers>=4.48.0'
直接使用
可像其他HuggingFace模型一样使用:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained('fla-hub/rwkv7-1.5B-world', trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained('fla-hub/rwkv7-1.5B-world', trust_remote_code=True)
model = model.cuda()
prompt = "什么是大语言模型?"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4096,
do_sample=True,
temperature=1.0,
top_p=0.3,
repetition_penalty=1.2
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=False)[0]
print(response)
训练详情
训练数据
基于World v3数据集训练,总token量达3.119万亿。
训练超参数
- 训练机制: bfloat16格式,学习率4e-4至1e-5延迟余弦衰减,权重衰减0.1(训练中期逐步增大批次)
- 最终损失: 1.9965
- 训练token量: 3.119万亿
评估
指标
lambada_openai
测试集:
转换前: 困惑度4.13 准确率69.4%
转换后: 困惑度4.26 准确率68.8%(未应用模板)
常见问题
问: safetensors元数据显示为无
答: 请升级transformers至4.48.0以上版本: pip install 'transformers>=4.48.0'