🚀 因果语言模型 14B - 与 Meta LLaMA 2 完全兼容
因果语言模型 14B 可借助无需远程/外部代码的 transformers 库加载,支持 AutoModelForCausalLM 和 AutoTokenizer,也能手动指定 LlamaForCausalLM 加载语言模型、GPT2Tokenizer 加载分词器。此外,该模型的量化与 GGUF(llama.cpp)、GPTQ、AWQ 完全兼容,在语言生成任务中表现出色。
✨ 主要特性
- 多库兼容:使用无需远程/外部代码的 transformers 库加载模型,模型量化与 GGUF(llama.cpp)、GPTQ、AWQ 完全兼容。
- 高性能表现:在多个基准测试中表现优异,如 MMLU、CEval、GSM8K、AlpacaEval 等,超过众多同类模型。
- 多语言支持:支持英语和中文,在日文基准测试中也展现出良好的跨语言迁移能力。
- 多版本可选:有 14B 和 7B 版本可供选择,7B 版本为 14B 版本的精简版,适用于特定场景。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
文档未提供代码示例,暂不展示。
📚 详细文档
模型训练
- 基础模型:基于 Qwen 的模型权重进行训练,同时使用了 LLaMA2 计算部分初始权重。
- 数据集:手动筛选了一个包含 13 亿个标记的 SFT 数据集,利用 Hugging Face 的开源数据集。训练数据包括精心挑选的维基百科条目、Fandom 精选条目以及萌娘百科过滤条目等,且 100% 为合成数据。
- 模型架构:采用与 LLaMA2 相同的模型架构,使用原始 MHA LLaMA2 模型的注意力计算方法,对旋转位置编码(RoPE)未进行额外缩放。
版本说明
- 14B 版本:标准版本,在各项基准测试中表现出色。
- 7B 版本:是 14B 版本的精简版本,专门设计用于推测抽样,但可能会产生幻觉或不可靠的输出。
- DPO 版本:在 🤗 Open LLM 排行榜上同尺寸的所有模型中排名第 1,在 MT-Bench 中超过 Zephyr-β。
提示格式
- 格式标准:采用 chatml 格式。
- 注意事项:系统提示不能为空。
基准测试结果
基准测试 |
详情 |
MMLU |
STEM 准确率:64.19;人文及艺术学科准确率:61.40;其他学科准确率:71.64;社会学科准确率:75.37;平均准确率:67.36(超过所有 70B 以下的模型,非常接近最佳 70B 微调模型) |
CEval(验证集) |
STEM 准确率:66.71;社会科学准确率:85.10;人文学科准确率:76.68;其他学科准确率:70.23;困难准确率:54.71;平均准确率:73.10(超过 Qwen-14B 和 GPT-4) |
GSM8K |
零样本准确率 0.7012888551933283(超过 MetaMath-13B、Qwen-14B) |
AlpacaEval Leaderboard |
胜率 88.26% |
DPO 版本的 MT-Behch |
CausalLM/14B-DPO-α:7.618868;CausalLM/7B-DPO-α:7.038125 |
日文基准(JCommonsenseQA) |
准确率 0.8213 ± 0.0115,接近当前 SOTA 日文 LM(Japanese Stable LM Gamma 7B) |
🔧 技术细节
模型架构
采用与 LLaMA2 相同的模型架构,使用原始 MHA LLaMA2 模型的注意力计算方法,对旋转位置编码(RoPE)未进行额外缩放。
数据集处理
手动筛选了一个包含 13 亿个标记的 SFT 数据集,利用 Hugging Face 的开源数据集。对于大多数句子,进行了手动或合成改写,并使用更大的语言模型生成了其他语言版本。为了在效率和质量之间取得平衡,训练所使用的 100% 数据都是合成数据,没有直接使用来自互联网或公开可用数据集的原始文本进行微调。
多模态能力
模型在 LLaVA1.5 中引入的提示格式上进行了一些微调,与图像注意力计算无关。因此,将 ViT 投影模块与冻结的 LM 对齐,并根据视觉指令实施快速实现有效的多模态能力。
📄 许可证
本模型采用 WTFPL 许可证。
注意事项
⚠️ 重要提示
- 模型在未经过滤的互联网数据上训练,可能包含大量不良内容、色情、暴力和冒犯性语言,使用时需自行检查模型安全性并过滤输出关键词。
- 由于计算资源限制,目前无法为模型的伦理和安全实施 RLHF,也无法对拒绝回答某些问题的 SFT 样本进行训练以进行限制性微调。
- 7B 版本为 14B 版本的精简版,用于推测抽样,直接使用时可能产生幻觉或不可靠输出,需谨慎使用。
💡 使用建议
- 若显存不足,建议使用 7B 版本而非量化版本,7B 版本和 14B 版本具有高度一致性。
- 系统提示在使用模型时不能为空,需遵循 chatml 格式。