CausalLM-7B-DPO-alpha-GGUF开源大模型 - 支持中英文文本高效生成

首页

Causallm 7B DPO Alpha GGUF

由 tastypear 开发

基于Llama 2架构的7B参数大语言模型，经过DPO训练优化，支持中英文文本生成

大型语言模型支持多种语言#多轮对话优化 #中英双语支持 #人类偏好对齐

下载量 367

发布时间 : 11/19/2023

模型简介

这是一个经过DPO优化的7B参数大语言模型，基于Llama 2架构，支持中英文文本生成任务。模型在多个数据集上训练，包括Guanaco、OpenOrca等，旨在提供更符合人类偏好的文本生成能力。

模型特点

DPO优化

模型经过直接偏好优化(DPO)训练，能生成更符合人类偏好的文本

多数据集训练

在Guanaco、OpenOrca、UltraChat等20多个高质量数据集上训练

中英双语支持

同时支持英文和中文文本生成任务

GGUF量化格式

提供多种量化版本的GGUF格式模型文件，便于不同硬件部署

模型能力

文本生成

对话系统

问答系统

内容创作

使用案例

对话系统

智能助手

可用于构建智能对话助手

在MT-Bench基准测试中得分7.038

内容创作

文本生成

可用于生成各种类型的文本内容

🚀 CausalLM 7B-DPO-alpha - GGUF

本项目提供了 CausalLM 7B-DPO-alpha 模型的量化版本，该版本采用 GGUF 格式，可用于文本生成任务。模型支持英文和中文，为用户提供了多语言的使用体验。

🚀 快速开始

本项目的模型文件采用 GGUF 格式，适用于多种客户端和库。以下是一些支持 GGUF 格式的客户端和库：

llama.cpp：GGUF 的源项目，提供命令行界面和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：功能齐全的 Web UI，支持跨所有平台和 GPU 架构的 GPU 加速，特别适合故事创作。
LM Studio：适用于 Windows 和 macOS（Silicon）的易于使用且功能强大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一个很棒的 Web UI，具有许多有趣和独特的功能，包括完整的模型库，便于模型选择。
Faraday.dev：适用于 Windows 和 macOS（Silicon 和 Intel）的有吸引力且易于使用的基于角色的聊天 GUI，支持 GPU 加速。
ctransformers：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。
llama-cpp-python：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
candle：一个专注于性能的 Rust ML 框架，包括 GPU 支持，易于使用。

✨ 主要特性

多语言支持：模型支持英文和中文两种语言。
量化版本：参考 TheBloke 的发布格式，制作了该模型的量化版本，方便使用。
多种数据集训练：使用了多个数据集进行训练，包括 JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca 等。
特定的提示模板：采用特定的提示模板 <|im_start|>system {system_message}<|im_end|> <|im_start|>user {prompt}<|im_end|> <|im_start|>assistant，便于使用。

📦 安装指南

文档未提供具体的安装步骤，你可以根据上述支持的客户端和库的官方文档进行安装和使用。

📚 详细文档

模型信息

属性	详情
基础模型	CausalLM/7B-DPO-alpha
数据集	JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat 等
推理	false
语言	英文、中文
许可证	wtfpl
模型创建者	CausalLM
模型名称	CausalLM 7B-DPO-alpha
模型类型	llama
任务类型	文本生成
提示模板	`<
量化者	tastypear
标签	llama、llama2、qwen

模型来源

模型创建者：CausalLM
原始模型：CausalLM 7B-DPO-alpha

提示模板

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

许可证说明

源模型的创建者将其许可证列为 wtfpl，因此本量化版本也使用相同的许可证。由于该模型基于 Llama 2，它也受 Meta Llama 2 许可证条款的约束，并且额外包含了相关的许可证文件。因此，应认为该模型声称同时受这两种许可证的约束。已联系 Hugging Face 以澄清双重许可问题，但他们尚未有官方立场。如有变化或 Meta 对此情况提供任何反馈，将相应更新此部分。

在此期间，有关许可的任何问题，特别是这两种许可证可能如何相互作用的问题，应直接咨询原始模型仓库：CausalLM's CausalLM 7B-DPO-alpha。

兼容性说明

这些量化的 GGUFv2 文件与 8 月 27 日之后的 llama.cpp 兼容，截至提交 d0cee0d。

它们也与许多第三方 UI 和库兼容 - 请参阅本 README 顶部的列表。

量化方法说明

点击查看详情

新的可用方法有：

GGML_TYPE_Q4_K：“类型 1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。尺度和最小值用 6 位量化，最终使用 4.5 bpw。
GGML_TYPE_Q5_K：“类型 1” 5 位量化。与 GGML_TYPE_Q4_K 具有相同的超级块结构，结果为 5.5 bpw。

请参考下面的提供文件表，了解哪些文件使用了哪些方法以及如何使用。

提供的文件

名称	量化方法	位数	大小
causallm_7b.Q4_K_M.gguf	Q4_K_M	4	4.77 GB
causallm_7b.Q5_K_S.gguf	Q5_K_S	5	5.40 GB
causallm_7b.Q5_K_M.gguf	Q5_K_M	5	5.53 GB

原始模型卡

原始模型详情

如需详细信息，请参考未经 DPO 训练的版本：CausalLM/7B。

模型	MT-Bench 得分
GPT-4	8.99
GPT-3.5-Turbo	7.94
Zephyr-7b-β (过拟合)	7.34
Zephyr-7b-α	6.88
CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

需要注意的是，这并不是在 CausalLM/14B & 7B 上继续训练的版本，而是在之前的训练分支上同时进行了 DPO 训练的优化版本，一些细节参数可能发生了变化。您仍然需要下载完整模型。

很快将会发布 beta 分支，采用了一些可能不利于某些任务的激进方法，以实现更好地符合人类偏好以接近和超过 GPT-3.5 基准。敬请期待。

免责声明

请注意，模型是在未经过滤的互联网数据上进行训练的。由于我们无法审核所有数据，可能会出现大量不良内容、色情、暴力和冒犯性语言，我们无法删除这些内容。因此，您仍然需要对模型的安全性进行自己的检查，并对输出中的关键词进行过滤。由于计算资源的限制，我们目前无法为模型的伦理和安全实施 RLHF，也无法对拒绝回答某些问题的 SFT 样本进行训练以进行限制性微调。