Excalibur-7b-DPO开源大语言模型 - 提升对话质量，优化视觉场景应用

首页

Excalibur 7b DPO

由 InferenceIllusionist 开发

Excalibur-7b-DPO是基于Excalibur-7b基础模型通过直接偏好优化(DPO)微调的大语言模型，专注于提升对话质量和视觉应用场景表现。

大型语言模型

Transformers

开源协议:Apache-2.0 #DPO微调优化 #多模态视觉问答 #ChatML提示格式

下载量 22

发布时间 : 3/28/2024

模型简介

该模型使用Intel/orca_dpo_pairs数据集进行DPO微调，旨在提升原始模型的回答质量，特别是在视觉应用场景中。微调后模型更具对话性和全面性，在多个基准测试中表现有所提升。

模型特点

DPO微调优化

使用直接偏好优化(DPO)方法微调，显著提升模型对话质量和回答全面性

视觉应用增强

特别优化了视觉应用场景的表现，支持图像理解和描述

多格式支持

支持ChatML和Alpaca提示格式，适应不同应用场景

量化版本可选

提供加权量化和静态量化两种版本，满足不同硬件需求

模型能力

文本生成

视觉场景理解

多轮对话

知识问答

推理任务

使用案例

视觉应用

图像描述生成

根据输入图像生成详细描述

需要额外mmproj文件支持

对话系统

智能助手

构建更自然流畅的对话助手

微调后对话质量显著提升

教育应用

知识问答

回答各类知识性问题

在AI2推理挑战赛等基准测试中表现良好

指标	数值
平均分	73.84
AI2 推理挑战 (25 样本)	70.90
HellaSwag (10 样本)	87.93
MMLU (5 样本)	65.46
TruthfulQA (0 样本)	70.82
Winogrande (5 样本)	82.48
GSM8k (5 样本)	65.43

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Excalibur 7b DPO

模型简介

模型特点

模型能力

使用案例

🚀 Excalibur-7b-DPO

🚀 快速开始

✨ 主要特性

📚 详细文档

视觉用例说明

提示格式

基准测试结果

📄 许可证