L

Llama 3 Bophades V3 8B

由 nbeerbower 开发
基于Llama-3-8b构建的DPO微调模型,专注于提升真实性和数学推理能力
下载量 44
发布时间 : 5/2/2024
模型介绍
内容详情
替代品

模型简介

该模型是在Llama-3-8b基础上,使用truthy-dpo和orca_math_dpo数据集进行直接偏好优化(DPO)微调得到的改进版本,旨在增强模型的真实回答能力和数学推理能力。

模型特点

直接偏好优化(DPO)
使用DPO方法微调,通过对比采纳答案和拒绝答案来优化模型输出质量
多数据集融合训练
结合truthy-dpo(真实性)和orca_math_dpo(数学推理)两个数据集进行训练
LoRA高效微调
采用低秩适应(LoRA)技术进行参数高效微调,减少计算资源需求

模型能力

文本生成
问答系统
数学问题求解
真实性回答生成

使用案例

教育
数学问题解答
帮助学生理解和解决各类数学问题
基于orca_math_dpo数据集微调,提升数学推理能力
信息检索
真实性问答系统
提供更真实可靠的问答服务
基于truthy-dpo数据集微调,减少虚假信息生成