Qwen2.5 Omni 7B GGUF
其他
Qwen2.5-Omni-7B-GGUF 是基于 Qwen2.5-Omni-7B 模型的 GGUF 格式版本,支持多模态输入,包括文本、音频和图像。
大型语言模型
英语
Q
ggml-org
319
3
Internvl3 78B Hf
其他
InternVL3 是一个先进的多模态大语言模型系列,具备强大的多模态感知和推理能力,支持图像、视频和文本输入。
图像生成文本
Transformers

其他
I
OpenGVLab
40
1
Cephalo Gemma 3 4b It 04 16 2025
Cephalo-Gemma-3-4b 是一个专注于生物材料和蜘蛛丝分析的视觉语言模型,基于 Gemma 架构进行精调。
图像生成文本
Transformers

C
lamm-mit
17
1
Qwen2.5 Omni 7B
其他
Qwen2.5-Omni 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态,并以流式方式生成文本和自然语音响应。
多模态融合
Transformers

英语
Q
Qwen
206.20k
1,522
Centurio Aya
Centurio 是一个开源的多语言大型视觉语言模型,支持100种语言,具备图像文本到文本的处理能力。
图像生成文本
Transformers

支持多种语言
C
WueNLP
29
4
VITA 1.5
VITA-1.5是一个多模态交互模型,旨在实现GPT-4o级别的实时视觉与语音交互能力。
视频文本转文本
V
VITA-MLLM
345
40
Aimv2 Large Patch14 224 Distilled
AIMv2是通过多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异。
图像分类
A
apple
236
0
Thaicapgen Clip Gpt2
基于CLIP编码器和GPT2架构的编码器-解码器模型,用于生成泰语图像描述
图像生成文本
其他
T
Natthaphon
18
0
Vila U 7b 256
MIT
VILA-U是一个统一处理视觉语言理解与生成任务的基础模型,通过单一自回归框架实现高效的多模态处理。
文本生成图像
V
mit-han-lab
127
21
AA Chameleon 7b Plus
这是一个强大的文本-图像交错输入输出模型,通过对齐万物算法进行了深度对齐,提升了图像生成能力和人类偏好对齐能力。
文本生成图像
Transformers

英语
A
PKU-Alignment
34
5
Chameleon 30b
其他
Meta变色龙是FAIR研发的混合模态早期融合基础模型,支持图像和文本的多模态处理。
多模态融合
Transformers

C
facebook
102
86
Final Model
Apache-2.0
该模型是一个基于Apache-2.0许可证的图像转文本模型,能够将图像内容转换为文本描述。
文字识别
Transformers

F
goatrider
17
0
CSUMLM
Apache-2.0
CSUMLM是整合多模态AI引擎和大语言模型优势的前沿人工智能系统,具备多模态处理、复杂语言理解和实时学习能力。
多模态融合
Transformers

支持多种语言
C
Or4cl3-1
35
1
Finetuned Blip Chest Xrays
Bsd-3-clause
一个基于深度学习的图像转文本模型,能够为输入的图像生成描述性字幕。
图像生成文本
Transformers

英语
F
daniyal214
33
0
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长图像描述生成和理解任务,通过引导式标注策略高效利用网络数据
图像生成文本
Transformers

B
movementso
18
0
General Image Captioning
Apache-2.0
这是一个基于Apache-2.0许可证的图像转文本模型,能够将图像内容转换为文本描述。
文字识别
Transformers

其他
G
alibidaran
30
0
CLIP ViT B 16 DataComp.XL S13b B90k
MIT
这是一个使用OpenCLIP在DataComp-1B数据集上训练的CLIP ViT-B/16模型,主要用于零样本图像分类和图像文本检索。
文本生成图像
C
laion
4,461
7
Pix2struct Docvqa Base
Apache-2.0
Pix2Struct是一个图像编码器-文本解码器模型,通过图像-文本对训练,支持多种任务,包括图像描述生成和视觉问答。
图像生成文本
Transformers

支持多种语言
P
google
8,601
37
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
这是一个基于MIT许可证的图像转文本模型,能够将图像内容转换为文本描述。
图像生成文本
M
laion
21.02k
20
Vinvl Base Image Captioning
Apache-2.0
微软VinVL基础预训练模型,专为图像描述生成任务设计,具备强大的视觉-语言理解能力。
图像生成文本
V
michelecafagna26
45
1
Chinese Clip Vit Large Patch14 336px
中文CLIP是基于约2亿中文图文对数据集的CLIP简化实现,采用ViT-L/14@336px作为图像编码器,RoBERTa-wwm-base作为文本编码器。
文本生成图像
Transformers

C
OFA-Sys
713
23
Veld Base
Apache-2.0
支持韩语和英语的预训练视觉编码器文本解码器模型
图像生成文本
Transformers

支持多种语言
V
KETI-AIR
40
0
Molt5 Base
Apache-2.0
molt5-base 是一个基于 T5 架构的模型,专门用于分子与自然语言之间的翻译任务。
机器翻译
Transformers

M
laituan245
3,617
1
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文