许可证:Apache-2.0
支持语言:
- 英语
- 中文
- 日语
- 韩语
- 法语
- 阿拉伯语
- 西班牙语
- 葡萄牙语
评估指标:
- 准确率
基础模型:
- BlinkDL/rwkv-7-world
任务标签:文本生成
rwkv7-2.9B-world GGUF模型
注意:必须使用最新版llama.cpp(https://github.com/ggml-org/llama.cpp)运行此模型
模型格式选择指南
根据硬件性能和内存限制选择合适的模型格式
BF16(Brain Float 16)- 支持BF16加速时使用
- 专为高速计算设计的16位浮点格式,同时保持良好精度
- 提供与FP32相似的动态范围,但内存占用更低
- 推荐支持BF16加速的硬件(请检查设备规格)
- 相比FP32,能实现高性能推理并减少内存占用
📌 适用场景:
✔ 硬件原生支持BF16(如新款GPU/TPU)
✔ 需要更高精度同时节省内存
✔ 计划将模型重量化为其他格式
📌 不适用场景:
❌ 硬件不支持BF16(可能回退至FP32导致速度变慢)
❌ 需兼容缺乏BF16优化的旧设备
F16(Float 16)- 比BF16兼容性更广
- 16位浮点格式,精度较高但数值范围小于BF16
- 支持大多数FP16加速设备(包括多数GPU和部分CPU)
- 数值精度略低于BF16,但通常满足推理需求
📌 适用场景:
✔ 硬件支持FP16但不支持BF16
✔ 需要速度、内存和精度平衡
✔ 在GPU等FP16优化设备上运行
📌 不适用场景:
❌ 设备缺乏原生FP16支持(可能运行速度低于预期)
❌ 存在内存限制
量化模型(Q4_K/Q6_K/Q8等)- 适用于CPU和低显存设备
量化技术在尽量保持精度的同时减小模型体积和内存占用
- 低位模型(Q4_K) → 内存占用最小,精度较低
- 高位模型(Q6_K/Q8_0) → 精度更高,需更多内存
📌 适用场景:
✔ 在CPU上运行优化模型
✔ 设备显存不足无法加载全精度模型
✔ 需减少内存占用同时保持合理精度
📌 不适用场景:
❌ 需要最高精度(全精度模型更优)
❌ 硬件有足够显存支持更高精度格式(BF16/F16)
超低位量化(IQ3_XS/IQ3_S/IQ3_M/Q4_K/Q4_0)
专为极致内存效率优化,适合低功耗设备或内存受限的大规模部署
-
IQ3_XS:3位超低位量化,极致内存效率
- 场景:Q4_K仍过大时的超低内存设备
- 代价:相比高位量化精度更低
-
IQ3_S:小分块实现最大内存效率
-
IQ3_M:中分块尺寸,精度优于IQ3_S
-
Q4_K:4位分块量化优化精度
-
Q4_0:纯4位量化,专为ARM设备优化
格式选择速查表
模型格式 |
精度 |
内存占用 |
硬件要求 |
最佳场景 |
BF16 |
最高 |
高 |
支持BF16的GPU/CPU |
高速推理兼顾内存节省 |
F16 |
高 |
高 |
支持FP16的设备 |
GPU推理(无BF16支持时) |
Q4_K |
中低 |
低 |
CPU/低显存设备 |
内存受限环境 |
Q6_K |
中 |
中 |
大内存CPU |
量化模型中精度较高 |
Q8_0 |
高 |
中 |
足够显存的CPU/GPU |
量化模型中的最高精度 |
IQ3_XS |
极低 |
极低 |
超低内存设备 |
极致内存效率牺牲精度 |
Q4_0 |
低 |
低 |
ARM/低内存设备 |
llama.cpp对ARM设备优化 |
包含文件说明
rwkv7-2.9B-world-bf16.gguf
- 权重保留BF16格式
- 适合需要重量化的场景
- 设备支持BF16加速时首选
rwkv7-2.9B-world-f16.gguf
rwkv7-2.9B-world-bf16-q8_0.gguf
- 输出层&嵌入层保持BF16
- 其他层量化至Q8_0
- BF16设备需量化版本时选用
rwkv7-2.9B-world-f16-q8_0.gguf
rwkv7-2.9B-world-q4_k.gguf
- 输出层&嵌入层量化至Q8_0
- 其他层量化至Q4_K
- CPU推理内存不足时适用
rwkv7-2.9B-world-q4_k_s.gguf
- 最小Q4_K变体,内存占用最少精度更低
- 极低内存配置首选
rwkv7-2.9B-world-q6_k.gguf
- 输出层&嵌入层量化至Q8_0
- 其他层量化至Q6_K
rwkv7-2.9B-world-q8_0.gguf
rwkv7-2.9B-world-iq3_xs.gguf
rwkv7-2.9B-world-iq3_m.gguf
- IQ3_M量化,中分块尺寸精度更优
- 适合低内存设备
rwkv7-2.9B-world-q4_0.gguf
- 纯Q4_0量化,ARM设备优化
- 低内存环境首选
- 更高精度需求建议选用IQ4_NL
🚀 如果这些模型对您有用
请点击❤点赞。同时如果您能测试我的网络监控助手👉Network Monitor Assistant,我将非常感激。
💬 点击聊天图标(主页面和仪表板右下角)。选择LLM类型:TurboLLM -> FreeLLM -> TestLLM。
测试目标
我正在实验针对网络监控服务的函数调用功能,使用小型开源模型。核心问题是:"模型在保持功能的前提下,最小能压缩到多小"。
🟡 TestLLM – 当前测试模型运行于6线程CPU虚拟机(加载约需15秒,推理速度较慢且仅支持单次提示处理——正在优化扩展能力!)。如果您感兴趣,我很乐意分享实现原理!
其他可用AI助手
🟢 TurboLLM – 使用gpt-4o-mini,速度极快!注意:由于OpenAI模型成本高,令牌数有限,但您可以登录或下载免费网络监控代理获取更多令牌,或使用TestLLM。
🔵 HugLLM – 运行开源Hugging Face模型,速度快但模型较小(约8B参数),质量较低,可获得2倍令牌数(受Hugging Face API可用性影响)
rwkv7-2.9B-world
这是采用闪存线性注意力格式的RWKV-7模型
模型详情
模型描述
- 开发团队: Bo Peng, Yu Zhang, Songlin Yang, Ruichong Zhang
- 资助方: RWKV项目(隶属LF AI & Data基金会)
- 模型类型: RWKV7
- 支持语言: 英语
- 许可证: Apache-2.0
- 参数量: 29亿
- 分词器: RWKV World分词器
- 词表大小: 65,536
模型来源
- 代码库: https://github.com/fla-org/flash-linear-attention ; https://github.com/BlinkDL/RWKV-LM
- 论文: 撰写中
使用方式
使用前请安装flash-linear-attention
和最新版transformers
:
pip install git+https://github.com/fla-org/flash-linear-attention
pip install 'transformers>=4.48.0'
直接使用
与常规HuggingFace模型用法相同:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained('fla-hub/rwkv7-2.9B-world', trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained('fla-hub/rwkv7-2.9B-world', trust_remote_code=True)
model = model.cuda()
prompt = "什么是大语言模型?"
messages = [
{"role": "user", "content": "你是谁?"},
{"role": "assistant", "content": "我是基于GPT-3的模型。"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=1024,
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=False)[0]
print(response)
训练数据
基于World v3数据集训练,总token量3.119万亿
训练超参
- 训练配置: bfloat16,学习率4e-4至1e-5"延迟"余弦衰减,权重衰减0.1(中期逐步增大批次尺寸)
- 最终损失: 1.8745
- 训练token量: 3.119万亿
常见问题
Q: safetensors元数据显示为None
A: 升级transformers至≥4.48.0版本:pip install 'transformers>=4.48.0'