DPO微调

# DPO微调

Llama Poro 2 8B Instruct

Poro 2 8B Instruct 是一个基于 Llama 3.1 8B 架构的指令遵循聊天机器人模型，专为芬兰语和英语的对话式 AI 应用设计。

大型语言模型

Transformers 支持多种语言

L3.3 GeneticLemonade Unleashed V3 70B

这是一个基于Llama 3.3的70B参数大语言模型，经过SFT+DPO微调，专注于角色驱动的对话和创意内容生成

大型语言模型

EchoLLaMA是一个多模态AI系统，能够将3D视觉数据转化为自然语音描述，同时支持通过语音输入进行交互对话。

图像生成文本

Qwen2.5 14B Dpo It Ties

基于Qwen2.5-14B模型通过TIES方法融合的增强版本，专注于指令跟随和对话优化

大型语言模型

mergekit-community

Chocolatine 2 14B Instruct V2.0.3

Chocolatine-2-14B-Instruct-v2.0.3 是一个基于 Qwen-2.5-14B 架构的大语言模型，经过 DPO 微调，专注于法语和英语任务，在法语 LLM 排行榜中表现优异。

大型语言模型

Transformers 支持多种语言

Gemma 2 9b Neogenesis Ita

基于VAGOsolutions/SauerkrautLM-gemma-2-9b-it微调的版本，优化了意大利语性能表现，支持8k上下文长度。

大型语言模型

Transformers 支持多种语言

Llama VARCO 8B Instruct

Llama-VARCO-8B-Instruct是一个基于Llama构建的生成式模型，通过额外的训练，在韩语处理方面表现出色，同时保持英语能力。

大型语言模型

Transformers 支持多种语言

Twinllama 3.1 8B DPO

基于优秀基础模型微调的高效稳定文本生成模型，提供高质量文本生成服务

大型语言模型

Transformers 英语

L3.1 8B Sunfall Stheno V0.6.1

Sunfall模型是基于Llama-3.1-8B-Stheno-v3.4开发的自然语言处理模型，适用于特定功能和应用场景。

大型语言模型

Tanuki 8B Dpo V1.0

Tanuki-8B是一个8B参数的日语大语言模型，经过SFT和DPO优化对话任务，由GENIAC松尾研究室开发

大型语言模型

Transformers 支持多种语言

Tanuki 8x8B Dpo V1.0

Tanuki-8x8B是从零开始预训练的大规模语言模型，通过SFT和DPO针对对话任务进行了优化

大型语言模型

Transformers 支持多种语言

Humanish Roleplay Llama 3.1 8B

这是一个经过DPO微调的Llama-3.1模型，能表现得更'人性化'，避免AI助手式的生硬回答，适用于角色扮演场景。

大型语言模型

Ko Gemma 2 9b It

Ko-Gemma-2-9B-IT是Gemma模型系列中的一款韩语对话模型，基于google/gemma-2-9b-it进行监督微调（SFT）和直接偏好优化（DPO）训练，专门针对韩语文本生成任务优化。

大型语言模型

Transformers 韩语

Jamet 8B L3 MK.V Blackroot

Jamet-8B-L3-MK.V-Blackroot 是一个基于 Llama 3 的角色扮演和故事叙述模型，经过多次迭代和优化，特别适合创意写作和互动对话。

大型语言模型

Llama 3 Bophades V3 8B

基于Llama-3-8b构建的DPO微调模型，专注于提升真实性和数学推理能力

大型语言模型

Calme 2.3 Llama3 70b

基于Meta-Llama-3-70B-Instruct模型通过DPO微调的大语言模型，在多项基准测试中表现优异

大型语言模型

Transformers 英语

Flammen21 Mistral 7B

基于Mistral 7B大语言模型，通过预训练模型合并并在Date-DPO-v2数据集上微调，擅长角色扮演、创意写作和通用智能任务。

大型语言模型

Neural-4-QA-7b 是一个基于多个7B参数规模模型合并的大语言模型，专注于问答任务，采用DARE-TIES合并方法优化性能。

大型语言模型

Noro Hermes 3x7B

Noro-Hermes-3x7B 是一个采用懒人融合工具包构建的混合专家模型（MoE），融合了三个7B参数的Mistral变体模型，具备智能助手、创意角色扮演和通用任务处理能力。

大型语言模型

Starchat2 15b V0.1

StarChat2是基于StarCoder2微调的160亿参数编程助手模型，擅长对话和代码生成任务

大型语言模型

Zephyr 7b Gemma V0.1

Zephyr 7B Gemma是基于google/gemma-7b微调的语言模型，使用直接偏好优化(DPO)在公开合成数据集上训练，旨在作为有用的助手。

大型语言模型

基于EEVE-Korean-Instruct-10.8B-v1.0的韩语指令优化模型，采用直接偏好优化(DPO)方法训练

大型语言模型

ENERGY-DRINK-LOVE

Minueza 32M Chat

Minueza-32M-Chat是一个拥有3200万参数的聊天模型，基于Felladrin/Minueza-32M-Base进行监督微调(SFT)和直接偏好优化(DPO)训练。

大型语言模型

Transformers 英语

Olmo 7B Instruct

OLMo 7B Instruct是基于Dolma数据集训练的开放语言模型，经过SFT和DPO优化，专为问答任务设计。

大型语言模型

Transformers 英语

EEVE Korean Instruct 10.8B V1.0

基于SOLAR-10.7B-v1.0的韩语词汇扩展版，经过DPO微调的大语言模型

大型语言模型

Polka 1.1b Chat

首个专为本地运行设计的波兰语对话助手模型，基于TinyLlama-1.1B扩展波兰语分词器并进行预训练和DPO优化

大型语言模型

Transformers 其他

Blockchainlabs 7B Merged Test2 4 Prune Sft 4bit DPO Orca

这是一个经过剪枝和DPO训练的7B参数规模的小型LLM，专为设备端用途优化

大型语言模型

Transformers 英语

H4rmoniousanthea

基于DPO微调技术的生态感知模型，旨在提升对生态问题的感知能力，为生态研究和可持续发展提供支持。

大型语言模型

Neuralhermes 2.5 Mistral 7B

NeuralHermes是基于OpenHermes-2.5-Mistral-7B模型，通过直接偏好优化(DPO)进一步微调而成的大语言模型，在多项基准测试中表现优异。

大型语言模型

Transformers 英语

Causallm 14B DPO Alpha GGUF

基于14B参数的因果语言模型，经过DPO优化训练，支持中英文文本生成任务

大型语言模型支持多种语言

Mini Synatra 7b 02

Mini_synatra_7b_02是由Minirecord公司基于maywell/Synatra-7B-v0.3-dpo模型微调的大语言模型，专注于文本生成任务。

大型语言模型

14B参数规模的因果语言模型，完全兼容Meta LLaMA 2架构，在多项基准测试中超越70B以下模型

大型语言模型

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24