G

Gemma 2 9B It SPPO Iter3

由 UCLA-AGI 开发
基于自博弈偏好优化方法在第三轮迭代中开发的89亿参数语言模型,以google/gemma-2-9b-it为起点,使用UltraFeedback数据集进行微调
下载量 6,704
发布时间 : 6/29/2024
模型介绍
内容详情
替代品

模型简介

该模型采用自博弈偏好优化方法进行对齐优化,主要用于英语文本生成任务

模型特点

自博弈偏好优化
采用SPPO方法进行三轮迭代优化,提升模型性能
高质量数据集
使用UltraFeedback数据集和合成数据进行训练
迭代改进
经过三轮迭代,每轮性能均有提升

模型能力

英语文本生成
对话系统
内容创作

使用案例

对话系统
智能客服
用于构建英语智能客服对话系统
内容生成
文章创作
辅助英语文章写作和内容生成