Deepseek R1 Zero
MIT
DeepSeek-R1 是 DeepSeek 推出的第一代推理模型,通过强化学习训练而成,在数学、代码和推理任务上表现优异。
大型语言模型
Transformers

D
deepseek-ai
4,034
905
Rombos LLM V2.5 Qwen 72b
其他
Rombos-LLM-V2.5-Qwen-72b是Qwen2.5-72B的持续微调版本,通过特定方法融合指令模型和基础模型,展现出更优的性能。
大型语言模型
Transformers

R
rombodawg
1,160
38
Powerlm 3b
Apache-2.0
PowerLM-3B是一个30亿参数的小型语言模型,采用Power学习率调度器训练,在自然语言多选、代码生成和数学推理等多个基准测试中表现优异。
大型语言模型
Transformers

P
ibm-research
11.07k
20
Openchat 3.5 0106 Gemma
其他
OpenChat-3.5-0106 Gemma是基于Gemma-7B模型,使用OpenChat的C-RLFT方法在openchat-3.5-0106数据上训练的对话模型,性能接近基于Mistral的OpenChat版本,并显著优于原版Gemma-7B和Gemma-7B-it。
大型语言模型
Transformers

O
openchat
3,050
59
Ruropebert E5 Base 2k
基于RoPEBert架构开发的俄语句子编码器模型,支持2048标记上下文长度,在encodechka基准测试中表现优异。
文本嵌入
Transformers 其他

R
Tochka-AI
2,422
11
Smaug 34B V0.1
Apache-2.0
基于jondurbin/bagel-34b-v0.2微调的大语言模型,采用新型DPO-Positive(DPOP)技术优化偏好学习
大型语言模型
Transformers

S
abacusai
2,694
62
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文