DPO强化学习

# DPO强化学习

Bielik 1.5B V3.0 Instruct

Bielik-1.5B-v3-Instruct是一款拥有16亿参数的波兰语生成式文本模型，基于Bielik-1.5B-v3进行指令微调，由SpeakLeash与ACK Cyfronet AGH合作开发。

大型语言模型

Transformers 其他

Calme 2.1 Qwen2.5 72b

基于Qwen/Qwen2.5-72B-Instruct微调的高级语言模型，在自然语言理解和生成方面表现优异

大型语言模型

Transformers 英语

Orca Mini V5 8b Dpo

基于Llama 3架构的8B参数模型，使用多种DPO数据集训练，专注于文本生成任务

大型语言模型

Transformers 英语

Self Biorag 7b Olaph

基于Minbyul/selfbiorag-7b-wo-kqa_golden-iter-dpo-step3-filtered微调的版本，使用HuggingFace MedLFQA（不含kqa_golden）数据集进行直接偏好优化(DPO)训练

大型语言模型

Transformers 英语

Llama 3 8B Instruct 64k

基于 winglian/Llama-3-8b-64k-PoSE 开发的 8B 参数大语言模型，采用 PoSE 技术扩展上下文长度至 64k，并经过 DPO 微调优化

大型语言模型

Transformers 英语

TC Instruct DPO

基于台风7B微调的泰语指令优化模型，采用直接偏好优化(DPO)技术训练

大型语言模型

Transformers 支持多种语言

Noromaid 7B 0.4 DPO

由IkariDev与Undi联合创作的7B参数大语言模型，经过DPO优化训练

大型语言模型

Phi2 Chinese 0.2B

基于Phi2架构的2亿参数中文因果语言模型，支持文本生成任务

大型语言模型

Transformers 支持多种语言

Dpopenhermes 7B V2

DPOpenHermes 7B v2是基于OpenHermes-2.5-Mistral-7B的第二次RL微调模型，通过直接偏好优化（DPO）进行强化学习，使用了Intel/orca_dpo_pairs和allenai/ultrafeedback_binarized_cleaned偏好数据集。

大型语言模型

Transformers 英语

openaccess-ai-collective

CausalLM/14B-DPO-α是一个基于因果语言模型的大规模语言模型，支持中英文文本生成任务，在MT-Bench评测中表现优异。

大型语言模型

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24