语言:
- 英文
许可证: Apache-2.0
标签:
- 密斯特拉尔
- 指导
- 微调
- 聊天标记语言
- GPT4
- 合成数据
- 蒸馏
- 直接偏好优化
- 强化学习人类反馈
数据集:
- mlabonne/chatml_dpo_pairs
基础模型: teknium/OpenHermes-2.5-Mistral-7B
模型索引:
- 名称: NeuralHermes-2.5-Mistral-7B
结果:
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: AI2推理挑战赛(25样本)
类型: ai2_arc
配置: ARC挑战赛
分割: 测试集
参数:
少量样本数: 25
指标:
- 类型: 标准化准确率
值: 66.55
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/NeuralHermes-2.5-Mistral-7B
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: HellaSwag(10样本)
类型: hellaswag
分割: 验证集
参数:
少量样本数: 10
指标:
- 类型: 标准化准确率
值: 84.9
名称: 标准化准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/NeuralHermes-2.5-Mistral-7B
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: MMLU(5样本)
类型: cais/mmlu
配置: 全部
分割: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 63.32
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/NeuralHermes-2.5-Mistral-7B
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: TruthfulQA(0样本)
类型: truthful_qa
配置: 多项选择
分割: 验证集
参数:
少量样本数: 0
指标:
- 类型: 多项选择准确率
值: 54.93
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/NeuralHermes-2.5-Mistral-7B
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: Winogrande(5样本)
类型: winogrande
配置: winogrande_xl
分割: 验证集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 78.3
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/NeuralHermes-2.5-Mistral-7B
名称: 开放大语言模型排行榜
- 任务:
类型: 文本生成
名称: 文本生成
数据集:
名称: GSM8k(5样本)
类型: gsm8k
配置: 主要
分割: 测试集
参数:
少量样本数: 5
指标:
- 类型: 准确率
值: 61.33
名称: 准确率
来源:
网址: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=mlabonne/NeuralHermes-2.5-Mistral-7B
名称: 开放大语言模型排行榜
NeuralHermes 2.5 - Mistral 7B
NeuralHermes基于teknium/OpenHermes-2.5-Mistral-7B模型,使用mlabonne/chatml_dpo_pairs数据集通过直接偏好优化(DPO)进一步微调而成。在多数基准测试中超越了原始模型(见结果)。
该模型直接受到Intel/neural-chat-7b-v3-1作者描述的RLHF过程启发以提升性能。使用了相同数据集并重新格式化以应用ChatML模板。
训练代码可在Google Colab和GitHub获取。训练约需1小时A100 GPU。
量化模型
- GGUF: https://huggingface.co/TheBloke/NeuralHermes-2.5-Mistral-7B-GGUF
- AWQ: https://huggingface.co/TheBloke/NeuralHermes-2.5-Mistral-7B-AWQ
- GPTQ: https://huggingface.co/TheBloke/NeuralHermes-2.5-Mistral-7B-GPTQ
- EXL2:
- 3.0bpw: https://huggingface.co/LoneStriker/NeuralHermes-2.5-Mistral-7B-3.0bpw-h6-exl2
- 4.0bpw: https://huggingface.co/LoneStriker/NeuralHermes-2.5-Mistral-7B-4.0bpw-h6-exl2
- 5.0bpw: https://huggingface.co/LoneStriker/NeuralHermes-2.5-Mistral-7B-5.0bpw-h6-exl2
- 6.0bpw: https://huggingface.co/LoneStriker/NeuralHermes-2.5-Mistral-7B-6.0bpw-h6-exl2
- 8.0bpw: https://huggingface.co/LoneStriker/NeuralHermes-2.5-Mistral-7B-8.0bpw-h8-exl2
结果
更新: NeuralHermes-2.5成为开放大语言模型排行榜上基于Hermes的最佳模型,也是7B参数模型中的佼佼者。🎉

Teknium(OpenHermes-2.5-Mistral-7B作者)对模型进行了基准测试(参见推文)。
所有基准测试结果均有提升: AGIEval(从43.07%提升至43.62%)、GPT4All(从73.12%提升至73.25%)以及TruthfulQA。
AGIEval

GPT4All

TruthfulQA

可查看Weights & Biases项目此处。
使用方式
可通过LM Studio或其他前端运行此模型。
也可使用以下代码运行:
import transformers
from transformers import AutoTokenizer
message = [
{"role": "system", "content": "你是一个乐于助人的助手聊天机器人。"},
{"role": "user", "content": "什么是大语言模型?"}
]
tokenizer = AutoTokenizer.from_pretrained(new_model)
prompt = tokenizer.apply_chat_template(message, add_generation_prompt=True, tokenize=False)
pipeline = transformers.pipeline(
"text-generation",
model=new_model,
tokenizer=tokenizer
)
sequences = pipeline(
prompt,
do_sample=True,
temperature=0.7,
top_p=0.9,
num_return_sequences=1,
max_length=200,
)
print(sequences[0]['generated_text'])
训练超参数
LoRA:
- r=16
- lora_alpha=16
- lora_dropout=0.05
- bias="none"
- task_type="CAUSAL_LM"
- target_modules=['k_proj', 'gate_proj', 'v_proj', 'up_proj', 'q_proj', 'o_proj', 'down_proj']
训练参数:
- 每设备训练批次大小=4
- 梯度累积步数=4
- 梯度检查点=True
- 学习率=5e-5
- 学习率调度器类型="cosine"
- 最大步数=200
- 优化器="paged_adamw_32bit"
- 预热步数=100
DPOTrainer:
- beta=0.1
- 最大提示长度=1024
- 最大长度=1536