14B因果语言模型开源 - 兼容LLaMA 2架构，性能超越70B以下模型

首页

14B

由 CausalLM 开发

14B参数规模的因果语言模型，完全兼容Meta LLaMA 2架构，在多项基准测试中超越70B以下模型

大型语言模型

Transformers

支持多种语言#多语言推理 #零样本数学 #DPO微调

下载量 236

发布时间 : 10/22/2023

模型简介

基于Qwen和LLaMA2架构训练的大语言模型，专注于文本生成任务，支持中英双语，在学术基准测试中表现优异

模型特点

高性能表现

在MMLU、CEval等基准测试中超越所有70B以下模型，GSM8K数学推理超越MetaMath-13B和Qwen-14B

多语言支持

支持中英双语，日语基准测试接近日文SOTA模型水平

完全兼容性

完全兼容LLaMA2架构，支持GGUF、GPTQ和AWQ量化格式

高质量训练数据

13亿token的SFT数据集，90%语句经过人工/合成改写，融合维基百科等多源精选内容

模型能力

文本生成

数学推理

多语言理解

学术问答

使用案例

学术研究

STEM领域问答

解答科学、技术、工程和数学领域的问题

MMLU STEM准确率64.19，超越所有70B以下模型

教育辅助

数学问题解答

解决复杂的数学推理问题

GSM8K零样本数学推理准确率70.13%

🚀 因果语言模型 14B - 与 Meta LLaMA 2 完全兼容

因果语言模型 14B 可借助无需远程/外部代码的 transformers 库加载，支持 AutoModelForCausalLM 和 AutoTokenizer，也能手动指定 LlamaForCausalLM 加载语言模型、GPT2Tokenizer 加载分词器。此外，该模型的量化与 GGUF（llama.cpp）、GPTQ、AWQ 完全兼容，在语言生成任务中表现出色。

✨ 主要特性

多库兼容：使用无需远程/外部代码的 transformers 库加载模型，模型量化与 GGUF（llama.cpp）、GPTQ、AWQ 完全兼容。
高性能表现：在多个基准测试中表现优异，如 MMLU、CEval、GSM8K、AlpacaEval 等，超过众多同类模型。
多语言支持：支持英语和中文，在日文基准测试中也展现出良好的跨语言迁移能力。
多版本可选：有 14B 和 7B 版本可供选择，7B 版本为 14B 版本的精简版，适用于特定场景。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

模型训练

基础模型：基于 Qwen 的模型权重进行训练，同时使用了 LLaMA2 计算部分初始权重。
数据集：手动筛选了一个包含 13 亿个标记的 SFT 数据集，利用 Hugging Face 的开源数据集。训练数据包括精心挑选的维基百科条目、Fandom 精选条目以及萌娘百科过滤条目等，且 100% 为合成数据。
模型架构：采用与 LLaMA2 相同的模型架构，使用原始 MHA LLaMA2 模型的注意力计算方法，对旋转位置编码（RoPE）未进行额外缩放。

版本说明

14B 版本：标准版本，在各项基准测试中表现出色。
7B 版本：是 14B 版本的精简版本，专门设计用于推测抽样，但可能会产生幻觉或不可靠的输出。
DPO 版本：在 🤗 Open LLM 排行榜上同尺寸的所有模型中排名第 1，在 MT-Bench 中超过 Zephyr-β。

提示格式

格式标准：采用 chatml 格式。
注意事项：系统提示不能为空。

基准测试结果

基准测试	详情
MMLU	STEM 准确率：64.19；人文及艺术学科准确率：61.40；其他学科准确率：71.64；社会学科准确率：75.37；平均准确率：67.36（超过所有 70B 以下的模型，非常接近最佳 70B 微调模型）
CEval（验证集）	STEM 准确率：66.71；社会科学准确率：85.10；人文学科准确率：76.68；其他学科准确率：70.23；困难准确率：54.71；平均准确率：73.10（超过 Qwen-14B 和 GPT-4）
GSM8K	零样本准确率 0.7012888551933283（超过 MetaMath-13B、Qwen-14B）
AlpacaEval Leaderboard	胜率 88.26%
DPO 版本的 MT-Behch	CausalLM/14B-DPO-α：7.618868；CausalLM/7B-DPO-α：7.038125
日文基准（JCommonsenseQA）	准确率 0.8213 ± 0.0115，接近当前 SOTA 日文 LM（Japanese Stable LM Gamma 7B）

🔧 技术细节

模型架构

采用与 LLaMA2 相同的模型架构，使用原始 MHA LLaMA2 模型的注意力计算方法，对旋转位置编码（RoPE）未进行额外缩放。

数据集处理

手动筛选了一个包含 13 亿个标记的 SFT 数据集，利用 Hugging Face 的开源数据集。对于大多数句子，进行了手动或合成改写，并使用更大的语言模型生成了其他语言版本。为了在效率和质量之间取得平衡，训练所使用的 100% 数据都是合成数据，没有直接使用来自互联网或公开可用数据集的原始文本进行微调。

多模态能力

模型在 LLaVA1.5 中引入的提示格式上进行了一些微调，与图像注意力计算无关。因此，将 ViT 投影模块与冻结的 LM 对齐，并根据视觉指令实施快速实现有效的多模态能力。

📄 许可证

本模型采用 WTFPL 许可证。

注意事项

⚠️ 重要提示

模型在未经过滤的互联网数据上训练，可能包含大量不良内容、色情、暴力和冒犯性语言，使用时需自行检查模型安全性并过滤输出关键词。

由于计算资源限制，目前无法为模型的伦理和安全实施 RLHF，也无法对拒绝回答某些问题的 SFT 样本进行训练以进行限制性微调。

7B 版本为 14B 版本的精简版，用于推测抽样，直接使用时可能产生幻觉或不可靠输出，需谨慎使用。