L

Llama 3 Instruct 8B SPPO Iter3

由 UCLA-AGI 开发
基于Meta-Llama-3-8B-Instruct架构,采用Self-Play Preference Optimization方法在第三次迭代中开发的大语言模型。
下载量 8,539
发布时间 : 6/25/2024

模型简介

该模型通过自我博弈和偏好优化提升了对齐能力,在合成数据集上进行训练以提高泛化能力。

模型特点

Self-Play Preference Optimization
采用先进的自我博弈偏好优化方法进行微调,提升模型的对齐能力。
合成数据训练
使用合成数据集进行训练,增强了模型的泛化能力。
迭代优化
经过三次迭代优化,性能逐步提升。

模型能力

文本生成
指令遵循
多轮对话

使用案例

对话系统
智能助手
可用于构建智能对话助手,提供自然流畅的交互体验。
内容生成
文本创作
可用于生成各种类型的文本内容,如文章、故事等。
AIbase
智启未来,您的人工智能解决方案智库
简体中文