目标检测分割

# 目标检测分割

Paligemma2 3b Mix 224 Jax

PaliGemma 2是基于Gemma 2的升级版视觉语言模型，支持多语言图文输入与文本输出，专为视觉语言任务设计

文本生成图像

Paligemma2 28b Mix 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像+文本输入，输出文本响应，适用于多种视觉语言任务。

图像生成文本

Paligemma2 10b Pt 224

PaliGemma 2是一款视觉语言模型（VLM），结合了Gemma 2模型的能力，能够同时处理图像和文本输入，并生成文本输出，支持多种语言。适用于图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割等多种视觉语言任务。

图像生成文本

Paligemma2 3b Pt 896

PaliGemma 2是一款多模态视觉语言模型，结合图像和文本输入生成文本输出，支持多语言，适用于多种视觉语言任务。

图像生成文本

Paligemma2 3b Pt 224

PaliGemma 2是Google开发的视觉语言模型(VLM)，结合了Gemma 2语言模型和SigLIP视觉模型的能力，支持多语言视觉语言任务。

图像生成文本

Paligemma2 10b Mix 224

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Paligemma2 3b Mix 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像与文本输入，输出生成文本，适用于多种视觉语言任务。

图像生成文本

Paligemma2 3b Mix 224

PaliGemma 2是Google开发的升级版视觉语言模型，结合了Gemma 2的能力，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Florence 2 Large No Flash Attn

Florence-2是微软开发的先进视觉基础模型，采用基于提示的方法处理多样化视觉任务，通过统一表征实现图像描述、目标检测等多种功能。

文本生成图像

Florence 2 Base Ft

Florence-2是微软开发的先进视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉语言任务。

图像生成文本

Paligemma 3b Ft Widgetcap 224

PaliGemma是一款多功能轻量级视觉语言模型，结合图像和文本输入生成文本输出，支持多语言，在多种视觉语言任务中表现出色。

图像生成文本

Paligemma 3b Ft Scicap 448

PaliGemma是一款多功能轻量级视觉语言模型，结合图像和文本输入生成文本输出，支持多语言。

文本生成图像

Paligemma 3b Ft Cococap 224

PaliGemma是一款多功能轻量级视觉语言模型（VLM），支持多语言输入输出，适用于多种视觉语言任务。

图像生成文本

Paligemma 3b Pt 448

PaliGemma是一款轻量级多功能视觉语言模型，基于SigLIP视觉模型和Gemma语言模型构建，支持多语言图像文本交互任务。

图像生成文本

Paligemma 3b Ft Nlvr2 224

PaliGemma是一款多功能轻量级视觉语言模型（VLM），支持多语言输入输出，擅长图像字幕、视觉问答等多种视觉语言任务。

文本生成图像

Paligemma 3b Mix 448

PaliGemma是一款多功能轻量级视觉语言模型(VLM)，基于SigLIP视觉模型和Gemma语言模型构建，支持图像和文本输入并生成文本输出

图像生成文本

Paligemma 3b Ft Nlvr2 448

PaliGemma是一款多功能且轻量级的视觉语言模型（VLM），支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

文本生成图像

Paligemma 3b Ft Vqav2 224

PaliGemma是一款多功能轻量级视觉语言模型，结合图像和文本输入生成文本输出，支持多语言。

文本生成图像

Paligemma 3b Ft Docvqa 896

PaliGemma是Google开发的轻量级视觉语言模型，基于SigLIP视觉模型和Gemma语言模型构建，支持多语言图像文本理解与生成。

图像生成文本

Paligemma 3b Ft Scicap 224

PaliGemma是一款轻量级视觉语言模型，结合图像和文本输入生成文本输出，支持多语言和多任务处理。

图像生成文本

Paligemma 3b Ft Vqav2 448

PaliGemma是Google开发的轻量级视觉语言模型，结合图像理解和文本生成能力，支持多语言任务。

文本生成图像

Paligemma 3b Ft Ocrvqa 896

PaliGemma是一款多功能轻量级视觉语言模型，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Paligemma 3b Ft Science Qa 224

PaliGemma是一款多功能轻量级视觉语言模型（VLM），支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24