知识蒸馏
Openr1 Distill 7B
Apache-2.0
OpenR1-Distill-7B是基于Qwen2.5-Math-7B在Mixture-of-Thoughts数据集上后训练的版本,旨在教会语言模型进行逐步推理。
大型语言模型
Transformers
英语
O
open-r1
134
6
Unime Phi3.5 V 4.2B
MIT
UniME 是一个基于多模态大模型的通用嵌入学习模型,专注于打破模态壁垒,实现跨模态检索和嵌入学习。
多模态对齐
Transformers
英语
U
DeepGlint-AI
54
4
Unime LLaVA 1.6 7B
MIT
UniME是一个基于多模态大模型的通用嵌入学习模型,采用336×336图像分辨率训练,在MMEB排行榜上位列第一。
图像生成文本
Transformers
英语
U
DeepGlint-AI
188
3
Ultralong Thinking
通过SLERP方法合并的8B参数语言模型,结合了DeepSeek-R1和Nemotron-8B模型的优势
大型语言模型
Transformers
U
mergekit-community
69
2
Splade Disco Human Mistral
基于SPLADE++改进的对话式搜索模型,通过多教师蒸馏策略优化多轮对话查询语义理解
文本嵌入
英语
S
slupart
27
3
Splade Disco Human
基于SPLADE++模型适配的对话式搜索版本,通过QReCC数据集微调查询编码器,优化多轮对话式搜索性能。
文本嵌入
英语
S
slupart
22
2
Minimaid L2
Apache-2.0
MiniMaid-L2是基于MiniMaid-L1进一步优化的角色扮演专用模型,通过知识蒸馏和更大规模数据集训练,在3B规模模型中表现优异。
大型语言模型
Transformers
英语
M
N-Bot-Int
63
2
Distill Any Depth Large Hf
MIT
Distill-Any-Depth是一种新的SOTA单目深度估计模型,采用知识蒸馏算法训练而成。
3D视觉
Transformers
D
xingyang1
2,322
2
Distill Any Depth Small Hf
MIT
Distill-Any-Depth是一种基于知识蒸馏算法训练的SOTA单目深度估计模型,能够高效准确地进行深度估计。
3D视觉
Transformers
D
xingyang1
1,214
3
ARWKV R1 1B5
Apache-2.0
ARWKV-R1-1B5 是基于RNN的70亿参数模型的早期预览版,通过从DeepSeek-R1-Distill-Qwen-1.5B进行三阶段知识蒸馏训练而成,上下文长度为2k。
大型语言模型
Transformers
支持多种语言
A
RWKV-Red-Team
164
4
Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224
Apache-2.0
DeepSeer是基于DeepSeek-R1模型开发的视觉语言模型,支持思维链推理能力,通过对话模板训练视觉模型。
图像生成文本
Transformers
D
mehmetkeremturkcan
25
2
Qwen2.5 14B DeepSeek R1 1M Uncensored
这是一个基于Qwen2.5-14B-DeepSeek-R1-1M模型,通过TIES方法融合DeepSeek-R1-Distill-Qwen-14B-abliterated-v2的14B参数规模的大语言模型
大型语言模型
Transformers
Q
FiditeNemini
154
6
Deepseek R1 Distill Qwen 32B Japanese
MIT
由CyberAgent发布的日语大语言模型,基于Qwen-32B蒸馏优化
大型语言模型
日语
D
cyberagent
1,190
250
Gguf Jina Reranker V1 Tiny En
Apache-2.0
专为极速重排序设计的模型,基于JinaBERT架构,支持长文本序列处理(最高8,192令牌)。
文本嵌入
英语
G
Felladrin
3,831
1
Deepseek R1 BF16
MIT
DeepSeek-R1是基于Llama架构的8B参数模型,由DeepSeek团队开发,专注于高效推理和微调。
大型语言模型
Transformers
英语
D
unsloth
944
22
Llama DNA 1.0 8B Instruct
基于Llama架构的最先进双语语言模型,特别优化了韩语理解和生成能力,同时保持强大的英语能力。
大型语言模型
Transformers
支持多种语言
L
dnotitia
661
58
Koala Lightning 700m
KOALA-Lightning-700M是基于SDXL-Lightning通过知识蒸馏训练的高效文本生成图像模型,在保持生成质量的同时显著提升推理速度
图像生成
K
etri-vilab
170
6
Koala Lightning 1b
KOALA-Lightning-1B是基于SDXL-Lightning的知识蒸馏模型,通过压缩U-Net结构实现高效文本生成图像,参数规模1.16B
文本生成图像
K
etri-vilab
390
7
Protgpt2 Distilled Tiny
Apache-2.0
ProtGPT2的蒸馏版本,通过知识蒸馏方法压缩为更高效的小型模型,保持性能的同时提升推理速度
蛋白质模型
Transformers
P
littleworth
157
4
Splade PP En V2
Apache-2.0
针对工业场景优化的SPLADE++模型实现,平衡检索质量与效率,支持文档扩展和稀疏表示学习
文本嵌入
Transformers
英语
S
prithivida
181
13
Phi 2 Sft Ultrachat Full
MIT
基于microsoft/phi-2在ultrachat_200k数据集上微调的大语言模型,适用于对话生成任务。
大型语言模型
Transformers
其他
P
lole25
68
2
Distil Medium.en
MIT
Distil-Whisper是Whisper模型的蒸馏版本,速度比原版快6倍,体积缩小49%,在英语语音识别任务上保持接近原版的性能。
语音识别
英语
D
distil-whisper
186.85k
120
Distil Large V2
MIT
Distil-Whisper是Whisper模型的蒸馏版本,速度提升6倍,体积缩小49%,在非分布评估集上的表现仅相差1% WER。
语音识别
英语
D
distil-whisper
42.65k
508
Mmlw Retrieval Roberta Large
Apache-2.0
MMLW(我必须得到更好的消息)是波兰语的神经文本编码器,针对信息检索任务进行了优化。
文本嵌入
Transformers
其他
M
sdadas
237.90k
12
Mmlw Retrieval Roberta Base
Apache-2.0
MMLW(我必须得到更好的消息)是波兰语的神经文本编码器,针对信息检索任务进行了优化,能够将查询和段落转换为768维向量。
文本嵌入
Transformers
其他
M
sdadas
408
1
Bk Sdm Small
Openrail
BK-SDM是通过架构压缩的稳定扩散模型,用于高效通用文生图合成,通过移除U-Net中的残差和注意力块实现轻量化。
图像生成
B
nota-ai
745
31
LEALLA Large
Apache-2.0
LEALLA 是一组轻量级、语言无关的句子嵌入模型集合,支持 109 种语言,是从 LaBSE 蒸馏而来。
文本嵌入
支持多种语言
L
setu4993
37
8
LEALLA Small
Apache-2.0
LEALLA-small 是一个轻量级、语言无关的句子嵌入模型,支持109种语言,适用于多语言句子嵌入和双语文本检索任务。
文本嵌入
支持多种语言
L
setu4993
41
14
Distil Ita Legal Bert
基于知识蒸馏技术构建的轻量级意大利法律领域BERT模型,仅含4层Transformer结构
文本嵌入
Transformers
D
dlicari
353
0
Rbt4 H312
Apache-2.0
MiniRBT是基于知识蒸馏技术开发的中文小型预训练模型,采用全词掩码技术优化训练效率。
大型语言模型
Transformers
中文
R
hfl
34
5
Minirbt H288
Apache-2.0
MiniRBT是基于知识蒸馏技术开发的中文小型预训练模型,采用全词掩码技术优化训练效率。
大型语言模型
Transformers
中文
M
hfl
405
8
Minirbt H256
Apache-2.0
MiniRBT是一个基于知识蒸馏技术的中文小型预训练模型,结合了全词掩码技术,适用于多种中文自然语言处理任务。
大型语言模型
Transformers
中文
M
hfl
225
7
Clip Vit Large Patch14 Ko
MIT
基于知识蒸馏训练的韩语CLIP模型,支持韩语和英语的多模态理解
文本生成图像
Transformers
韩语
C
Bingsu
4,537
15
Re2g Qry Encoder Fever
Apache-2.0
Re2G是一个结合神经初始检索和重排序的生成模型,用于知识密集型任务。
文本嵌入
Transformers
R
ibm-research
17
0
Re2g Qry Encoder Nq
Apache-2.0
Re2G是一个结合神经检索、重排序和生成的端到端系统,用于知识密集型任务。
问答系统
Transformers
R
ibm-research
14
0
Kominilm
KoMiniLM是一个轻量级韩语语言模型,旨在解决大型语言模型在实际应用中的延迟和容量限制问题。
大型语言模型
Transformers
K
BM-K
244
2
Distilbert Base Uncased Finetuned Squad
Apache-2.0
基于蒸馏BERT基础版在问答数据集上微调的模型,适用于问答任务
问答系统
Transformers
D
jhoonk
15
0
Bert Large Uncased Squadv1.1 Sparse 80 1x4 Block Pruneofa
Apache-2.0
这是一个通过知识蒸馏对预训练的80% 1x4块稀疏Prune OFA BERT-Large模型进行微调得到的模型,在SQuADv1.1问答任务上表现优异。
问答系统
Transformers
英语
B
Intel
15
1
Tinybert Spanish Uncased Finetuned Ner
基于西班牙语TinyBERT微调的命名实体识别模型,体积仅55MB,适用于西班牙语文本的实体识别任务。
序列标注
西班牙语
T
mrm8488
64
3
Tinybert General 4L 312D De
这是一个针对德语优化的TinyBERT模型,通过蒸馏BERT基础cased模型创建,适用于自然语言处理任务。
大型语言模型
Transformers
德语
T
dvm1983
269
3