Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-Instruct的FP8量化版本,支持视觉-文本输入和文本输出,由Neural Magic优化发布。
图像生成文本
Transformers

英语
Q
parasail-ai
78
1
Qwen2.5 VL 3B Instruct Quantized.w4a16
Apache-2.0
Qwen2.5-VL-3B-Instruct的量化版本,权重量化为INT4,激活量化为FP16,适用于视觉-文本任务的高效推理。
文本生成图像
Transformers

英语
Q
RedHatAI
167
1
Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-Instruct的FP8量化版本,支持视觉-文本输入和文本输出,适用于多模态任务。
文本生成图像
Transformers

英语
Q
RedHatAI
1,837
3
Qwen2 VL 7B Instruct GGUF
Apache-2.0
基于Qwen2-VL-7B-Instruct的多模态模型量化版本,支持图像文本到文本任务,适用于多种量化级别。
图像生成文本
英语
Q
XelotX
201
1
Erax VL 7B V2.0 Preview GGUF
Apache-2.0
EraX-VL-7B-V2.0-Preview 是一个多模态基础模型,支持越南语、英语和中文,适用于多种视觉语言任务。
图像生成文本
支持多种语言
E
mradermacher
162
1
Erax VL 2B V1.5 Q4 K M GGUF
Apache-2.0
这是一个多模态视觉问答模型,支持越南语、英语和中文,基于erax-ai/EraX-VL-2B-V1.5转换的GGUF格式版本。
文本生成图像
支持多种语言
E
Ngoac
55
0
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instruct 是一个多模态视觉语言模型,支持图像和文本的联合理解与生成任务。
图像生成文本
英语
Q
second-state
195
4
Paligemma2 28b Pt 896
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2语言模型和SigLIP视觉模型能力,支持图像和文本输入生成文本输出。
图像生成文本
Transformers

P
google
116
48
Paligemma2 3b Mix 224
PaliGemma 2是Google开发的升级版视觉语言模型,结合了Gemma 2的能力,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
15.23k
28
Minicpm Llama3 V 2 5 GGUF
MiniCPM-Llama3-V-2_5是一个基于Llama3架构的多模态视觉问答模型,支持中英文交互。
文本生成图像
支持多种语言
M
gaianet
112
3
Llama 3.1 8B Vision 378
该项目训练了一个投影模块,用于为Llama 3添加视觉能力,使用了SigLIP技术,并应用于Llama-3.1-8B-Instruct模型。
图像生成文本
Transformers

L
qresearch
203
35
Yi VL 6B Hf
其他
Yi-VL-6B是由01-AI开发的多模态视觉语言模型,支持中文和英文,适用于视觉问答等任务。
图像生成文本
Transformers

支持多种语言
Y
BUAADreamer
55
2
Paligemma 3b Ft Science Qa 448
PaliGemma是由Google开发的30亿参数轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入生成文本输出。
图像生成文本
Transformers

P
google
15
2
Paligemma 3b Mix 448
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入并生成文本输出
图像生成文本
Transformers

P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本理解与生成。
图像生成文本
Transformers

P
google
519
9
Paligemma 3b Ft Vqav2 448
PaliGemma是Google开发的轻量级视觉语言模型,结合图像理解和文本生成能力,支持多语言任务。
文本生成图像
Transformers

P
google
121
17
Paligemma 3b Ft Ocrvqa 448
PaliGemma是Google开发的多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
图像生成文本
Transformers

P
google
365
6
Excalibur 7b DPO
Apache-2.0
Excalibur-7b-DPO是基于Excalibur-7b基础模型通过直接偏好优化(DPO)微调的大语言模型,专注于提升对话质量和视觉应用场景表现。
大型语言模型
Transformers

E
InferenceIllusionist
22
8
Firellava 13b
FireLLaVA-13B是基于开源大语言模型生成指令数据训练的视觉语言模型,支持图像理解和文本生成任务。
图像生成文本
Transformers

F
fireworks-ai
59
55
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文