Kunoichi-DPO-7B开源AI模型 - 通用场景适用，推理与指令遵循能力强

首页

Kunoichi DPO 7B

由 SanjiWatsuki 开发

Kunoichi-DPO-7B是基于Kunoichi-7B模型，使用英特尔的Orca数据对与Alpaca模板进行直接偏好优化（DPO）微调得到的模型，主要面向通用场景，具有更强的推理和指令遵循能力。

大型语言模型

Transformers

#DPO优化推理 #8k长上下文支持 #通用指令增强

下载量 748

发布时间 : 1/11/2024

模型简介

该模型通过DPO微调提升了推理和指令遵循能力，适用于通用场景，但角色扮演能力可能因数据集对齐而受影响。支持最大8k上下文窗口，实验性支持16k上下文窗口。

模型特点

增强的推理能力

通过DPO微调，模型在推理和指令遵循方面表现更优。

大上下文窗口支持

支持最大8k上下文窗口，实验性支持16k上下文窗口。

通用场景适用

适用于多种通用场景，但角色扮演能力可能有所下降。

模型能力

文本生成

指令遵循

推理任务

使用案例

通用文本生成

指令响应

根据用户指令生成合适的响应文本。

在MT Bench测试中得分8.29，优于多个同类模型。

教育辅助

逻辑测试

用于逻辑推理和问题解答。

Logic Test得分为0.59，表现优于部分同类模型。

🚀 Kunoichi-DPO-7B

Kunoichi-DPO-7B 是一个基于 Kunoichi-7B 模型，使用英特尔的 Orca 数据对与 Alpaca 模板进行直接偏好优化（DPO）微调得到的模型。该模型主要面向通用场景。在测试中，它比 Kunoichi-7B 具有更强的推理和指令遵循能力，但由于 Orca 数据集的对齐，其角色扮演能力可能会有所下降。

目前，该模型正在进行基准测试，待结果确定后，我将更新模型页面。

image/png

🚀 快速开始

此部分文档未提供快速开始的相关内容，暂不展示。

✨ 主要特性

基于 Kunoichi-7B 进行 DPO 微调，推理和指令遵循能力更强。
适用于通用场景，但角色扮演能力可能因数据集对齐而受影响。
支持最大 8k 上下文窗口，使用 NTK RoPE alpha 为 2.6 时，可实验性支持 16k 上下文窗口。

📚 详细文档

模型性能

模型	MT Bench	EQ Bench	MMLU	Logic Test
GPT-4-Turbo	9.32	-	-	-
GPT-4	8.99	62.52	86.4	0.86
Kunoichi-DPO-7B	8.29	41.60	-	0.59
Kunoichi-7B	8.14	44.32	64.9	0.58
Starling-7B	8.09	-	63.9	0.51
Claude-2	8.06	52.14	78.5	-
Silicon-Maid-7B	7.96	40.44	64.7	0.54
Loyal-Macaroni-Maid-7B	7.95	38.66	64.9	0.57
GPT-3.5-Turbo	7.94	50.28	70	0.57
Claude-1	7.9	-	77	-
Openchat-3.5	7.81	37.08	64.3	0.39
Dolphin-2.6-DPO	7.74	42.88	61.9	0.53
Zephyr-7B-beta	7.34	38.71	61.4	0.30
Llama-2-70b-chat-hf	6.86	51.56	63	-
Neural-chat-7b-v3-1	6.84	43.61	62.4	0.30

模型	平均分	AGIEval	GPT4All	TruthfulQA	Bigbench
Kunoichi-DPO-7B	58.4	45.08	74	66.99	47.52
Kunoichi-7B	57.54	44.99	74.86	63.72	46.58
OpenPipe/mistral-ft-optimized-1218	56.85	44.74	75.6	59.89	47.17
Silicon-Maid-7B	56.45	44.74	74.26	61.5	45.32
mlabonne/NeuralHermes-2.5-Mistral-7B	53.51	43.67	73.24	55.37	41.76
teknium/OpenHermes-2.5-Mistral-7B	52.42	42.75	72.99	52.99	40.94
openchat/openchat_3.5	51.34	42.67	72.92	47.27	42.51
berkeley-nest/Starling-LM-7B-alpha	51.16	42.06	72.72	47.33	42.53
HuggingFaceH4/zephyr-7b-beta	50.99	37.33	71.83	55.1	39.7

提示模板

Alpaca 模板

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

SillyTavern 格式

使用 Noromaid 模板在 SillyTavern 中能获得最佳效果。

SillyTavern 配置文件：上下文配置，指令配置。

此外，强烈推荐使用文本完成预设。你可以通过调整温度或最小概率（min p）来提高创造力或稳定性，其他参数通常无需调整。

上下文窗口

该模型支持最大 8k 上下文窗口。使用 NTK RoPE alpha 为 2.6 时，可实验性支持 16k 上下文窗口。

📄 许可证

本模型采用 CC BY-NC 4.0 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文