许可证:WTFPL
数据集:
- JosephusCheung/GuanacoDataset
- Open-Orca/OpenOrca
- stingning/ultrachat
- meta-math/MetaMathQA
- liuhaotian/LLaVA-Instruct-150K
- jondurbin/airoboros-3.1
- WizardLM/WizardLM_evol_instruct_V2_196k
- RyokoAI/ShareGPT52K
- RyokoAI/Fandom23K
- milashkaarshif/MoeGirlPedia_wikitext_raw_archive
- 维基百科
- wiki_lingua
- fnlp/moss-003-sft-data
- garage-bAInd/Open-Platypus
- LDJnr/Puffin
- openbmb/llava_zh
- BAAI/COIG
- TigerResearch/tigerbot-zhihu-zh-10k
- liwu/MNBVC
- teknium/openhermes
语言:
- 英文
- 中文
流水线标签:文本生成
标签:
- llama
- llama2
- qwen
- 因果语言模型

图片由GPT-4 DALL·E 3绘制 一句话总结:在大多数量化评估中,可能优于所有现有70B以下的模型...
因果语言模型14B - 完全兼容Meta LLaMA 2
使用无需远程/外部代码的transformers库加载模型,通过AutoModelForCausalLM和AutoTokenizer(或手动指定LlamaForCausalLM加载语言模型,GPT2Tokenizer加载分词器),模型量化完全兼容GGUF(llama.cpp)、GPTQ和AWQ格式。
最新动态:DPO版本在~13B规模模型中位列🤗开放大模型排行榜首位
近期更新:DPO-α版本在MT-Bench超越Zephyr-β
重要提示:若显存不足,请优先选用7B原版而非量化版本
7B与14B版本在表现上具有高度一致性,量化版本可能影响效果。
llama.cpp GGUF模型支持
Kerfuffle已修复GPT2Tokenizer兼容性问题,详见提交记录,新版模型已重新上传。
感谢TheBloke提供的GGUF量化版本:
https://huggingface.co/TheBloke/CausalLM-14B-GGUF
注意事项: 非官方GPTQ/AWQ量化模型可能存在问题,因其使用Wikitext校准,而本模型已在合成的维基百科对话数据集上进行了充分训练。
建议优先选择7B原版而非量化版本。若必须量化,推荐使用GGUF格式。
模型说明:
参见7B版本
本模型基于Qwen(同时参考LLaMA2部分初始权重)训练,使用时需遵守二者商用限制。模型架构完全复现LLaMA2,采用原始MHA注意力机制,未对RoPE位置编码进行额外缩放。
我们精心构建了13亿token的SFT数据集,通过对开源数据的深度重构:90%的语句经过人工/合成改写,并由大模型生成多语言版本。同时融合了维基百科精选条目、Fandom特色内容及萌娘百科过滤文本。为平衡效率与质量,训练数据100%为合成数据,未直接使用任何原始网络文本或开源数据集。
7B版本作为14B的蒸馏版,专为推测采样设计,使用时需注意其可能产生幻觉输出。
重要声明: 模型训练数据未经全面过滤,可能包含不良内容。受算力限制,我们暂未实施RLHF安全对齐,使用者需自行建立内容过滤机制。
额外特性:模型适配了LLaVA1.5的提示格式(与视觉计算无关),只需对齐ViT投影模块即可快速实现多模态能力。
提示格式:
chatml规范
系统提示不得为空!
性能指标:
测试集 |
科目 |
准确率 |
备注 |
MMLU |
STEM |
64.19 |
超越所有70B以下模型 |
|
人文 |
61.40 |
接近顶级70B微调模型 |
|
其他 |
71.64 |
|
|
社科 |
75.37 |
|
平均 |
|
67.36 |
|
CEval(验证集) |
STEM |
66.71 |
超越Qwen-14B和GPT-4 |
|
社科 |
85.10 |
|
|
人文 |
76.68 |
|
|
其他 |
70.23 |
|
|
高难度题 |
54.71 |
|
平均 |
|
73.10 |
|
GSM8K |
零样本数学推理 |
70.13% |
超越MetaMath-13B和Qwen-14B |
AlpacaEval排行榜
模型 |
胜率 |
标准误差 |
对比详情 |
causallm-14b |
88.26% |
1.116333 |
查看详情 |
DPO版本MT-Bench表现
模型 |
得分 |
GPT-4 |
8.99 |
GPT-3.5-Turbo |
7.94 |
CausalLM/14B-DPO-α |
7.62 |
CausalLM/7B-DPO-α |
7.04 |
多语言支持
日语基准测试
测试任务 |
准确率 |
备注 |
jcommonsenseqa-1.1 |
82.13% |
接近日文SOTA模型Stable LM Gamma 7B |
🤗开放大模型排行榜
2023年12月3日
DPO版本在13B量级模型中综合排名第一
