DPO强化学习
Bielik 1.5B V3.0 Instruct
Apache-2.0
Bielik-1.5B-v3-Instruct是一款拥有16亿参数的波兰语生成式文本模型,基于Bielik-1.5B-v3进行指令微调,由SpeakLeash与ACK Cyfronet AGH合作开发。
大型语言模型
Transformers
其他
B
speakleash
780
8
Calme 2.1 Qwen2.5 72b
其他
基于Qwen/Qwen2.5-72B-Instruct微调的高级语言模型,在自然语言理解和生成方面表现优异
大型语言模型
Transformers
英语
C
MaziyarPanahi
155
3
Orca Mini V5 8b Dpo
基于Llama 3架构的8B参数模型,使用多种DPO数据集训练,专注于文本生成任务
大型语言模型
Transformers
英语
O
pankajmathur
16
3
Self Biorag 7b Olaph
基于Minbyul/selfbiorag-7b-wo-kqa_golden-iter-dpo-step3-filtered微调的版本,使用HuggingFace MedLFQA(不含kqa_golden)数据集进行直接偏好优化(DPO)训练
大型语言模型
Transformers
英语
S
dmis-lab
20
3
Llama 3 8B Instruct 64k
基于 winglian/Llama-3-8b-64k-PoSE 开发的 8B 参数大语言模型,采用 PoSE 技术扩展上下文长度至 64k,并经过 DPO 微调优化
大型语言模型
Transformers
英语
L
MaziyarPanahi
91
12
TC Instruct DPO
Apache-2.0
基于台风7B微调的泰语指令优化模型,采用直接偏好优化(DPO)技术训练
大型语言模型
Transformers
支持多种语言
T
tanamettpk
28
10
Noromaid 7B 0.4 DPO
由IkariDev与Undi联合创作的7B参数大语言模型,经过DPO优化训练
大型语言模型
Transformers
N
NeverSleep
137
27
Phi2 Chinese 0.2B
Apache-2.0
基于Phi2架构的2亿参数中文因果语言模型,支持文本生成任务
大型语言模型
Transformers
支持多种语言
P
charent
65
30
Dpopenhermes 7B V2
Apache-2.0
DPOpenHermes 7B v2是基于OpenHermes-2.5-Mistral-7B的第二次RL微调模型,通过直接偏好优化(DPO)进行强化学习,使用了Intel/orca_dpo_pairs和allenai/ultrafeedba
大型语言模型
Transformers
英语
D
openaccess-ai-collective
30
31
14B DPO Alpha
CausalLM/14B-DPO-α是一个基于因果语言模型的大规模语言模型,支持中英文文本生成任务,在MT-Bench评测中表现优异。
大型语言模型
Transformers
支持多种语言
1
CausalLM
172
118