知识蒸馏

# 知识蒸馏

LFM2-700M 是由 Liquid AI 开发的新一代混合模型，专为边缘 AI 和设备端部署设计，在质量、速度和内存效率方面树立了新标准。

大型语言模型

Transformers 支持多种语言

Openbuddy OpenBuddy R1 0528 Distill Qwen3 32B Preview0 QAT GGUF

这是OpenBuddy-R1-0528-Distill-Qwen3-32B-Preview0-QAT的量化版本，借助量化技术可以在不同硬件条件下更高效地运行模型。

大型语言模型支持多种语言

Voice Based Stress Recognition

轻量级语音压力识别模型，通过知识蒸馏技术训练，适用于边缘设备实时压力检测

Openr1 Distill 7B

OpenR1-Distill-7B是基于Qwen2.5-Math-7B在Mixture-of-Thoughts数据集上后训练的版本，旨在教会语言模型进行逐步推理。

大型语言模型

Transformers 英语

Unime LLaVA 1.6 7B

UniME是一个基于多模态大模型的通用嵌入学习模型，采用336×336图像分辨率训练，在MMEB排行榜上位列第一。

图像生成文本

Transformers 英语

Unime Phi3.5 V 4.2B

UniME 是一个基于多模态大模型的通用嵌入学习模型，专注于打破模态壁垒，实现跨模态检索和嵌入学习。

多模态对齐

Transformers 英语

Ultralong Thinking

通过SLERP方法合并的8B参数语言模型，结合了DeepSeek-R1和Nemotron-8B模型的优势

大型语言模型

mergekit-community

Splade Disco Human Mistral

基于SPLADE++改进的对话式搜索模型，通过多教师蒸馏策略优化多轮对话查询语义理解

文本嵌入英语

Splade Disco Human

基于SPLADE++模型适配的对话式搜索版本，通过QReCC数据集微调查询编码器，优化多轮对话式搜索性能。

文本嵌入英语

MiniMaid-L2是基于MiniMaid-L1进一步优化的角色扮演专用模型，通过知识蒸馏和更大规模数据集训练，在3B规模模型中表现优异。

大型语言模型

Transformers 英语

Distill Any Depth Large Hf

Distill-Any-Depth是一种新的SOTA单目深度估计模型，采用知识蒸馏算法训练而成。

Distill Any Depth Small Hf

Distill-Any-Depth是一种基于知识蒸馏算法训练的SOTA单目深度估计模型，能够高效准确地进行深度估计。

Huihui Ai.deepseek R1 Distill Qwen 7B Abliterated GGUF

一个量化版本的7B参数大语言模型，基于Qwen架构蒸馏优化，致力于让知识为大众所用

大型语言模型

ARWKV-R1-1B5 是基于RNN的70亿参数模型的早期预览版，通过从DeepSeek-R1-Distill-Qwen-1.5B进行三阶段知识蒸馏训练而成，上下文长度为2k。

大型语言模型

Transformers 支持多种语言

Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224

DeepSeer是基于DeepSeek-R1模型开发的视觉语言模型，支持思维链推理能力，通过对话模板训练视觉模型。

图像生成文本

mehmetkeremturkcan

Qwen2.5 14B DeepSeek R1 1M Uncensored

这是一个基于Qwen2.5-14B-DeepSeek-R1-1M模型，通过TIES方法融合DeepSeek-R1-Distill-Qwen-14B-abliterated-v2的14B参数规模的大语言模型

大型语言模型

Deepseek R1 Distill Qwen 32B Japanese

由CyberAgent发布的日语大语言模型，基于Qwen-32B蒸馏优化

大型语言模型日语

Gguf Jina Reranker V1 Tiny En

专为极速重排序设计的模型，基于JinaBERT架构，支持长文本序列处理（最高8,192令牌）。

文本嵌入英语

Deepseek R1 BF16

DeepSeek-R1是基于Llama架构的8B参数模型，由DeepSeek团队开发，专注于高效推理和微调。

大型语言模型

Transformers 英语

Llama DNA 1.0 8B Instruct

基于Llama架构的最先进双语语言模型，特别优化了韩语理解和生成能力，同时保持强大的英语能力。

大型语言模型

Transformers 支持多种语言

Koala Lightning 700m

KOALA-Lightning-700M是基于SDXL-Lightning通过知识蒸馏训练的高效文本生成图像模型，在保持生成质量的同时显著提升推理速度

Koala Lightning 1b

KOALA-Lightning-1B是基于SDXL-Lightning的知识蒸馏模型，通过压缩U-Net结构实现高效文本生成图像，参数规模1.16B

文本生成图像

Protgpt2 Distilled Tiny

ProtGPT2的蒸馏版本，通过知识蒸馏方法压缩为更高效的小型模型，保持性能的同时提升推理速度

蛋白质模型

Splade PP En V2

针对工业场景优化的SPLADE++模型实现，平衡检索质量与效率，支持文档扩展和稀疏表示学习

Transformers 英语

Phi 2 Sft Ultrachat Full

基于microsoft/phi-2在ultrachat_200k数据集上微调的大语言模型，适用于对话生成任务。

大型语言模型

Transformers 其他

Distil Medium.en

Distil-Whisper是Whisper模型的蒸馏版本，速度比原版快6倍，体积缩小49%，在英语语音识别任务上保持接近原版的性能。

语音识别英语

Distil Large V2

Distil-Whisper是Whisper模型的蒸馏版本，速度提升6倍，体积缩小49%，在非分布评估集上的表现仅相差1% WER。

语音识别英语

Mmlw Retrieval Roberta Large

MMLW（我必须得到更好的消息）是波兰语的神经文本编码器，针对信息检索任务进行了优化。

Transformers 其他

Mmlw Retrieval Roberta Base

MMLW（我必须得到更好的消息）是波兰语的神经文本编码器，针对信息检索任务进行了优化，能够将查询和段落转换为768维向量。

Transformers 其他

BK-SDM是通过架构压缩的稳定扩散模型，用于高效通用文生图合成，通过移除U-Net中的残差和注意力块实现轻量化。

LEALLA 是一组轻量级、语言无关的句子嵌入模型集合，支持 109 种语言，是从 LaBSE 蒸馏而来。适用于多语言句子嵌入及双语文本检索。

文本嵌入支持多种语言

LEALLA-small 是一个轻量级、语言无关的句子嵌入模型，支持109种语言，适用于多语言句子嵌入和双语文本检索任务。

文本嵌入支持多种语言

Distil Ita Legal Bert

基于知识蒸馏技术构建的轻量级意大利法律领域BERT模型，仅含4层Transformer结构

MiniRBT是基于知识蒸馏技术开发的中文小型预训练模型，采用全词掩码技术优化训练效率。

大型语言模型

Transformers 中文

MiniRBT是基于知识蒸馏技术开发的中文小型预训练模型，采用全词掩码技术优化训练效率。

大型语言模型

Transformers 中文

MiniRBT是一个基于知识蒸馏技术的中文小型预训练模型，结合了全词掩码技术，适用于多种中文自然语言处理任务。

大型语言模型

Transformers 中文

Clip Vit Large Patch14 Ko

基于知识蒸馏训练的韩语CLIP模型，支持韩语和英语的多模态理解

文本生成图像

Transformers 韩语

Re2g Qry Encoder Fever

Re2G是一个结合神经初始检索和重排序的生成模型，用于知识密集型任务。该问题编码器是Re2G系统的组成部分，用于将问题编码为向量以进行检索。

Re2g Qry Encoder Nq

Re2G是一个结合神经检索、重排序和生成的端到端系统，用于知识密集型任务。该模型是其NQ（Natural Questions）问题编码器组件。

Efficient Splade V Large Query

高效SPLADE模型用于段落检索，采用双模型架构分别处理查询和文档推理，在MS MARCO数据集上表现优异。

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24