多任务优化
Ling Lite 1.5
MIT
灵曦是由InclusionAI开源的大规模混合专家语言模型,精简版拥有168亿总参数与27.5亿激活参数,展现出卓越性能表现。
大型语言模型
Transformers
L
inclusionAI
46
3
Xgen Small 9B Instruct R
xGen-small是一款企业级紧凑型语言模型,通过领域聚焦的数据整理、可扩展的预训练、长度扩展和强化学习微调,以可预测的低成本实现长上下文性能表现。
大型语言模型
Transformers
英语
X
Salesforce
97
4
Olmo 2 0425 1B Instruct GGUF
Apache-2.0
OLMo 2 1B指令版是基于OLMo-2-0425-1B-RLVR1模型的后训练变体,经过监督微调、DPO训练和RLVR训练,旨在实现多种任务的最先进性能。
大型语言模型
英语
O
unsloth
3,137
3
Olmo 2 0425 1B Instruct
Apache-2.0
OLMo 2 1B是基于allenai/OLMo-2-0425-1B-RLVR1模型的后训练变体,经过监督微调、DPO训练和RLVR训练,旨在实现多种任务的最先进性能。
大型语言模型
Transformers
英语
O
allenai
5,127
33
Mmrexcev GRPO V0.420
这是一个通过SLERP方法融合的预训练语言模型,结合了Captain-Eris_Violet-GRPO-v0.420和MMR-E1两个模型的特点。
大型语言模型
Transformers
M
Nitral-Archive
35
2
Reasoning SCE Coder V1.0
基于SCE融合方法构建的32B参数规模大语言模型,融合了多个高性能预训练模型
大型语言模型
Transformers
R
BenevolenceMessiah
235
3
Deepseek R1
MIT
DeepSeek-R1是深度求索推出的第一代推理模型,通过大规模强化学习训练,在数学、代码和推理任务上表现优异。
大型语言模型
Transformers
D
deepseek-ai
1.7M
12.03k
Gte Modernbert Base
Apache-2.0
基于ModernBERT预训练编码器的文本嵌入模型,支持8192 tokens长文本处理,在MTEB、LoCO和COIR等评估任务中表现优异。
文本嵌入
Transformers
英语
G
Alibaba-NLP
74.52k
138
Ruri Small V2
Apache-2.0
瑠璃是一个日语通用文本嵌入模型,专注于句子相似度计算和特征提取,基于cl-nagoya/ruri-pt-small-v2基础模型训练。
文本嵌入
日语
R
cl-nagoya
55.95k
4
Ruri Small
Apache-2.0
Ruri是一个专注于日语文本嵌入的模型,能够高效计算句子相似度和提取文本特征。
文本嵌入
日语
R
cl-nagoya
11.75k
9
Ruri Base
Apache-2.0
Ruri是一个针对日语的通用文本嵌入模型,专注于句子相似度和特征提取任务。
文本嵌入
Safetensors
日语
R
cl-nagoya
523.56k
9
SILMA 9B Instruct V1.0
SILMA-9B-Instruct-v1.0是一个90亿参数的开源阿拉伯语大语言模型,在阿拉伯语任务中表现优异,基于谷歌Gemma架构构建。
大型语言模型
Transformers
支持多种语言
S
silma-ai
18.08k
74
Labse Ru Sts
MIT
高质量俄语句子嵌入计算BERT模型,基于cointegrated/LaBSE-en-ru优化,适用于语义文本相似度任务
文本嵌入
Transformers
其他
L
sergeyzh
4,650
6
Beyonder 4x7B V2
其他
Beyonder-4x7B-v2是一个基于混合专家模型(MoE)架构的大语言模型,由4个专家模块组成,专注于不同领域的任务,如对话、编程、创意写作和数学推理。
大型语言模型
Transformers
B
mlabonne
758
130
Chinese Lert Large
Apache-2.0
LERT是一种基于语言学理论驱动的预训练语言模型,旨在通过语言学知识增强模型性能。
大型语言模型
Transformers
中文
C
hfl
197
15
Gottbert Base Last
MIT
GottBERT是首个专为德语设计的RoBERTa模型,基于OSCAR数据集的德语部分进行预训练,提供基础版和大模型版两个版本。
大型语言模型
德语
G
TUM
6,842
17
Hindi Tpu Electra
基于ELECTRA基础架构训练的印地语预训练语言模型,在多项印地语NLP任务中表现优于多语言BERT
大型语言模型
Transformers
其他
H
monsoon-nlp
25
1
Mengzi Bert Base
Apache-2.0
基于300G中文语料预训练的BERT模型,采用MLM、POS和SOP任务训练
大型语言模型
Transformers
中文
M
Langboat
438
37