Llama 3.2 11B Vision Radiology Mini
这是一个基于Llama架构的多模态模型,支持视觉和文本指令,经过4位量化优化。
图像生成文本
L
p4rzvl
69
0
R1 VL 2B
Apache-2.0
R1-VL-2B 是通过逐步组相对策略优化(StepGRPO)训练得到的视觉语言推理模型,基于Qwen2-VL-2B-Instruct进行优化。
图像生成文本
Transformers

R
jingyiZ00
272
1
Phi 4 Multimodal Instruct Ko Asr
基于microsoft/Phi-4-multimodal-instruct微调的韩语自动语音识别(ASR)和语音翻译(AST)模型,在zeroth-korean和fleurs数据集上表现优异。
文本生成音频
Transformers

韩语
P
junnei
354
3
Smolvlm2 2.2B Instruct 4bit
Apache-2.0
SmolVLM2-2.2B-Instruct-4bit 是一个基于 MLX 格式转换的视觉语言模型,专注于视频文本到文本的任务。
图像生成文本
Transformers

英语
S
smdesai
24
1
Kowen Vol 1 Base 7B
Apache-2.0
基于Qwen2-VL-7B-Instruct的韩语视觉语言模型,支持图像转文本任务
图像生成文本
Transformers

韩语
K
Gwonee
22
1
Pixtral 12B Captioner Relaxed
Apache-2.0
基于Pixtral-12B-2409微调的多模态大语言模型,专注于生成丰富的图像描述
图像生成文本
Transformers

英语
P
unalignment
26
3
Med CXRGen I
Apache-2.0
Med-CXRGen-I是基于LLaVA-v1.5-7B微调的多模态大语言模型,专注于胸部X光影像的放射学报告生成任务,特别是印象部分的生成。
图像生成文本
Transformers

M
X-iZhang
86
1
Med CXRGen F
Apache-2.0
Med-CXRGen-F是一个基于LLaVA-v1.5-7B微调的多模态大语言模型,专门用于放射学报告生成任务,特别是胸部X光检查结果部分的自动生成。
图像生成文本
Transformers

M
X-iZhang
86
1
Qwen2 VL 7B SafeRLHF
Apache-2.0
Qwen2-VL-7B-Instruct 是一个基于 SafeRLHF 数据集微调的多模态大语言模型,专注于视觉问答任务,并强调安全性。
文本生成图像
Safetensors
英语
Q
Foreshhh
1,630
2
Xgen Mm Phi3 Mini Instruct Dpo R V1.5
Apache-2.0
xGen-MM是Salesforce AI Research开发的多模态基础模型系列,基于BLIP系列改进,在高质量图像字幕和交错图文数据上训练。
图像生成文本
英语
X
Salesforce
305
18
Chartgemma
MIT
ChartGemma是基于PaliGemma构建的图表理解与推理模型,通过视觉指令微调直接处理图表图像,捕捉视觉趋势和底层信息。
图像生成文本
Transformers

英语
C
ahmed-masry
1,243
41
Xgen Mm Phi3 Mini Instruct R V1
xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列,基于BLIP系列改进,具有强大的图像理解和文本生成能力。
图像生成文本
Transformers

英语
X
Salesforce
804
186
Vip Llava 7b
ViP-LLaVA 是一款开源多模态聊天机器人,通过对 LLaMA/Vicuna 进行图像和区域级别指令数据的微调训练而成。
文本生成图像
Transformers

V
mucai
66.75k
8
Llava Med 7b Delta
其他
LLaVA-Med是通过视觉指令微调构建的生物医学领域多模态模型,具备处理生物医学图像和文本的能力。
文本生成图像
Transformers

L
microsoft
257
67
OTTER MPT7B Init
MIT
OTTER-MPT7B-Init是一个用于初始化Otter模型训练的权重,由Openflamingo直接转换而来。
文本生成图像
Transformers

O
luodian
53
3
Blip Image Captioning
这是一个基于 BLIP 架构的图像描述生成模型,能够为输入的图片生成简洁的文字描述。
图像生成文本
Transformers

B
nnpy
17
6
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文