零样本推理

# 零样本推理

Nousresearch.hermes 3 Llama 3.1 405B GGUF

Hermes-3-Llama-3.1-405B是一个基于Llama架构的大型语言模型，专注于文本生成任务。

大型语言模型

Wavlm Large Age Sex

基于 WavLM-Large 的音频分类模型，用于精准识别说话人的年龄和性别。

Safetensors 英语

Devstral Small Vision 2505 GGUF

基于Mistral Small模型的视觉编码器，支持图像文本生成任务，适配llama.cpp框架

图像生成文本

Google.medgemma 4b It GGUF

MedGemma-4B-IT 是一个专注于医疗领域的图像文本生成模型，由Google开发。

图像生成文本

T0++是基于T5架构的自然语言处理模型，通过多任务提示训练实现零样本任务泛化能力，在多种NLP任务上超越GPT-3且体积更小。

大型语言模型

Transformers 英语

Internvl3 8B Bf16

InternVL3-8B-bf16 是一个基于 MLX 格式转换的视觉语言模型，支持多语言图像文本到文本任务。

图像生成文本

Transformers 其他

Gemma 3 27B It Qat GGUF

Google推出的Gemma 3 27B IT模型，适用于多种文本生成和图像理解任务，支持128k令牌的上下文长度和多模态图像处理。

图像生成文本

lmstudio-community

VL Rethinker 7B 8bit

VL-Rethinker-7B-8bit 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型，支持视觉问答任务。

文本生成图像

Transformers 英语

VL Rethinker 7B Fp16

该模型是基于Qwen2.5-VL-7B-Instruct转换而来的多模态视觉语言模型，支持视觉问答任务。

文本生成图像

Transformers 英语

Gemma 3 27b It Uncensored

该模型是一个基于transformers库的模型，具体功能和用途需要进一步信息确认。

大型语言模型

Vora 7B Instruct

VoRA是一个基于7B参数的视觉-语言模型，专注于图像文本到文本的转换任务。

图像生成文本

VoRA是一个基于7B参数的视觉语言模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

Gemma 3 27b Tools Q5 K M GGUF

该模型是基于Gemma-3-27b-tools转换的GGUF格式版本，适用于本地推理任务。

大型语言模型

Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct 是一个多模态视觉语言模型，支持图像和文本的联合理解与生成任务。

图像生成文本英语

Gemma 3 4b It Uncensored DBL X Int2 Quantized

基于Transformers库的预训练模型，适用于自然语言处理任务

大型语言模型

Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct 是一个多模态视觉语言模型，支持图像和文本的交互式生成任务。

图像生成文本英语

ARPG是一种创新的自回归图像生成框架，能够通过类GPT因果架构实现BERT式掩码建模。

Distill Any Depth Large Hf

Distill-Any-Depth是一种新的SOTA单目深度估计模型，采用知识蒸馏算法训练而成。

Llama 3.1 8b DodoWild V2.01

基于Llama 3.1架构的8B参数语言模型，通过mergekit合并多个模型而成，具备文本生成能力

大型语言模型

Llama 3.1 8b Medusa V1.01

基于Llama 3.1架构的8B参数语言模型，通过mergekit合并多个专业模型而成，在文本生成任务中表现优异。

大型语言模型

Llama 3.1 8b Smarteaz V1.01

基于Llama 3.1架构的8B参数模型，通过mergekit合并多个Smarteaz系列模型而成，专注于文本生成任务

大型语言模型

Li 14b V0.4 Slerp0.1

这是一个使用SLERP方法合并的14B参数规模的大语言模型，由li-14b-v0.4和miscii-14b-0218两个基础模型合并而成。

大型语言模型

Qwen2.5 14B CIC ACLARC

基于Qwen 2.5 14B Instruct微调的引文意图分类模型，专门用于科学出版物中的引文意图分类。

Transformers 英语

Internvl2 5 1B GGUF BPU

InternVL2_5 - 1B 是一个基于图像文本到文本转换的多模态大模型，适用于视觉语言任务。

图像生成文本其他

Deepseek R1 Distill Phi 3 Mini 4k Lorar8 Alpha16 50000samples

基于Deepseek-R1知识蒸馏的推理模型，支持链式思维(CoT)推理能力

大型语言模型

Safetensors 英语

LLaVA-Llama3是基于Llama-3的多模态模型，支持图像与文本的联合处理。

图像生成文本

Modernbert Large Nli

基于ModernBERT-large的多任务微调模型，专注于自然语言推理(NLI)任务，在零样本分类和推理任务中表现优异。

大型语言模型

Transformers 支持多种语言

Mt0 Xxl Mt Q4 K M GGUF

该模型是从bigscience/mt0-xxl-mt通过llama.cpp转换为GGUF格式的多语言文本生成模型，支持多种语言任务。

大型语言模型支持多种语言

鹰隼2号是一个高性能视觉语言模型家族，专注于数据策略和训练方案的透明性，旨在推动开源社区开发具有竞争力的视觉语言模型。

图像生成文本

Transformers 其他

LLaVA-SpaceSGG是基于LLaVA-v1.5-13b的视觉问答模型，专注于场景图生成任务，能够理解图像内容并生成结构化场景描述。

文本生成图像

Safetensors 英语

Moxin 7B是一款强大的开源大语言模型，提供基础模型和聊天模型等多种类型，在多个常见数据集上展现出了良好的性能。

大型语言模型

3blarenegv3 ECE PRYMMAL Martial

使用mergekit合并预训练语言模型得到的模型，在多个文本生成任务上有评估结果

大型语言模型

AiM是一个基于PyTorch的无条件图像生成模型，通过PytorchModelHubMixin集成推送到Hugging Face Hub。

Florence 2 Flux Large

基于Microsoft Florence-2-large的视觉语言模型，擅长图像理解和文本生成任务

图像生成文本

Transformers 支持多种语言

Minicpm Llama3 V 2 5 GGUF

MiniCPM-Llama3-V-2_5是一个基于Llama3架构的多模态视觉问答模型，支持中英文交互。

文本生成图像支持多种语言

Depth Anything V2 Metric Indoor Large Hf

基于Depth Anything V2使用合成Hypersim数据集进行室内度量深度估计的微调版本，兼容transformers库。

Depth Anything V2 Metric Indoor Base Hf

基于Depth Anything V2模型，针对室内度量深度估计任务使用Hypersim合成数据集微调的版本

Depth Anything V2 Metric Indoor Small Hf

基于Depth Anything V2针对室内度量深度估计任务进行微调的模型，使用合成数据集Hypersim训练，兼容transformers库。

Depth Anything V2 Metric Outdoor Small Hf

基于Depth Anything V2的微调版本，专为户外场景度量深度估计设计，使用合成数据集Virtual KITTI进行训练。

Sd3 Long Captioner V2

基于PaliGemma 224x224版本微调的图像到文本生成模型，专注于生成详细的艺术类图像描述

图像生成文本

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24