许可证: WTFPL
数据集:
- JosephusCheung/GuanacoDataset
- Open-Orca/OpenOrca
- stingning/ultrachat
- meta-math/MetaMathQA
- liuhaotian/LLaVA-Instruct-150K
- jondurbin/airoboros-3.1
- WizardLM/WizardLM_evol_instruct_V2_196k
- RyokoAI/ShareGPT52K
- RyokoAI/Fandom23K
- milashkaarshif/MoeGirlPedia_wikitext_raw_archive
- 维基百科
- wiki_lingua
- fnlp/moss-003-sft-data
- garage-bAInd/Open-Platypus
- LDJnr/Puffin
- openbmb/llava_zh
- BAAI/COIG
- TigerResearch/tigerbot-zhihu-zh-10k
- liwu/MNBVC
- teknium/openhermes
语言:
- 英文
- 中文
管道标签: 文本生成
标签:
- llama
- llama2
- qwen
- 因果语言模型

图片由GPT-4 DALL·E 3绘制 一句话总结:这个7B模型在大多数量化评估中,可能比所有现有的<=33B模型表现更好...
因果语言模型7B - 完全兼容Meta LLaMA 2
使用无需远程/外部代码的transformers库加载模型,AutoModelForCausalLM和AutoTokenizer(或手动指定LlamaForCausalLM加载语言模型,GPT2Tokenizer加载分词器),模型量化完全兼容GGUF(llama.cpp)、GPTQ和AWQ。
最新更新:DPO-α版本在MT-Bench中超越Zephyr-β
llama.cpp GGUF模型
GPT2Tokenizer由Kerfuffle在https://github.com/ggerganov/llama.cpp/pull/3743修复,新模型已重新上传。
感谢TheBloke提供GGUF量化版本:https://huggingface.co/TheBloke/CausalLM-7B-GGUF
**注意:**非官方的GPTQ和AWQ模型可能存在问题,因为它们使用Wikitext进行校准,而本模型已在合成的维基百科对话数据集上进行了大量训练。
不建议使用任何形式的量化,而是使用较小尺寸的模型,因为7B和14B版本具有高度一致性。但如果确实需要使用模型量化,请使用GGUF。
说明:
另请参阅14B版本
本模型基于Qwen(并使用了LLaMA2,是的,用于计算部分初始权重)的模型权重训练,根据情况您可能还需要遵守这两个模型的商业使用限制。训练过程使用了与LLaMA2完全相同的模型架构,采用原始MHA LLaMA2模型的相同注意力计算方法,且未对旋转位置编码(RoPE)应用额外缩放。
我们手动筛选了13亿标记的SFT数据集进行训练,利用了Hugging Face的开源数据集。对于大多数句子,我们进行了人工或合成重写,并使用更大的语言模型生成了其他语言版本。此外,我们还使用了精选的维基百科条目、Fandom特色条目和过滤后的萌娘百科条目进行增强文本训练。为平衡效率与质量,训练数据100%为合成数据,未直接使用互联网原始文本或公开数据集的原始文本进行微调。
7B版本是14B模型的蒸馏版本,专为推测采样设计。因此直接使用需谨慎,可能产生幻觉或不可靠输出。
请注意,模型是在未过滤的互联网数据上训练的。由于我们无力审核全部内容,可能存在大量不良内容、色情、暴力和冒犯性语言无法移除。因此您仍需自行检查模型安全性并过滤输出关键词。受计算资源限制,我们目前无法为模型伦理安全实施RLHF,也无法对拒绝回答特定问题的SFT样本进行限制性微调训练。
额外说明:模型在LLaVA1.5引入的与图像注意力计算无关的提示格式上进行了微调。因此将ViT投影模块与冻结语言模型在视觉指令下对齐,可快速实现有效的多模态能力。
提示格式:
chatml
系统提示不能为空!
MMLU:
STEM准确率:56.83
人文准确率:58.79
其他准确率:70.04
社科准确率:72.41
平均准确率:63.82(优于/持平最佳Mistral-7B聊天式微调、ChatGLM3-6B及所有其他33B以下模型)
CEval(验证集):
STEM准确率:61.67
社科准确率:81.94
人文准确率:77.19
其他准确率:68.35
高难度准确率:48.03
平均准确率:70.27(超越当前所有7B模型,包括ChatGLM3-6B)
GSM8K
零样本准确率0.5921152388172858(优于WizardMath-7B和Qwen-7B)
DPO版本的MT-Bench