E

Excalibur 7b DPO

由 InferenceIllusionist 开发
Excalibur-7b-DPO是基于Excalibur-7b基础模型通过直接偏好优化(DPO)微调的大语言模型,专注于提升对话质量和视觉应用场景表现。
下载量 22
发布时间 : 3/28/2024

模型简介

该模型使用Intel/orca_dpo_pairs数据集进行DPO微调,旨在提升原始模型的回答质量,特别是在视觉应用场景中。微调后模型更具对话性和全面性,在多个基准测试中表现有所提升。

模型特点

DPO微调优化
使用直接偏好优化(DPO)方法微调,显著提升模型对话质量和回答全面性
视觉应用增强
特别优化了视觉应用场景的表现,支持图像理解和描述
多格式支持
支持ChatML和Alpaca提示格式,适应不同应用场景
量化版本可选
提供加权量化和静态量化两种版本,满足不同硬件需求

模型能力

文本生成
视觉场景理解
多轮对话
知识问答
推理任务

使用案例

视觉应用
图像描述生成
根据输入图像生成详细描述
需要额外mmproj文件支持
对话系统
智能助手
构建更自然流畅的对话助手
微调后对话质量显著提升
教育应用
知识问答
回答各类知识性问题
在AI2推理挑战赛等基准测试中表现良好
AIbase
智启未来,您的人工智能解决方案智库
简体中文