T

TC Instruct DPO

由 tanamettpk 开发
基于台风7B微调的泰语指令优化模型,采用直接偏好优化(DPO)技术训练
下载量 28
发布时间 : 2/17/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于SCB 10X的台风7B(源自米斯特拉尔7B)微调而来的泰语指令优化模型,专为研究大语言模型构建流程而开发。采用QLoRA技术训练,支持多种泰语指令任务。

模型特点

泰语指令优化
专门针对泰语指令进行优化,确保指令的多样性
直接偏好优化(DPO)
采用直接偏好优化技术进行训练,提高模型响应质量
QLoRA高效微调
使用QLoRA技术(秩32,α值64)进行高效微调

模型能力

泰语文本生成
指令跟随
问答系统

使用案例

研究应用
大语言模型构建研究
用于研究泰语大语言模型的构建流程和技术
对话系统
泰语聊天机器人
可用于构建泰语对话系统