多模态文本生成
Vintern 1B V3 5 GGUF Ext
MIT
Vintern-1B-v3_5是一个10亿参数的视觉语言模型,支持图像文本生成任务。
文本生成图像
V
rootonchair
242
1
Mistral Small 3.1 24B Instruct 2503 GGUF
Apache-2.0
这是一个基于Mistral-Small-3.1-24B-Instruct-2503的视觉增强版本,支持图像文本生成文本任务。
图像生成文本
M
ggml-org
670
3
Gemma 3 4b It Int8 Asym Ov
Apache-2.0
基于OpenVINO优化的Gemma 3 4B参数模型,支持文本到文本及视觉文本推理
图像生成文本
G
Echo9Zulu
152
1
Gemma 3 1b It Qat Int4 Unquantized
Gemma是Google推出的轻量级先进开放模型系列,基于与Gemini相同技术构建,支持多模态输入和文本生成。
大型语言模型
Transformers
G
google
507
3
Gemma 3 4b It Llamafile
Gemma 3是Google推出的轻量级开源模型系列,基于Gemini技术构建,支持多模态输入和文本输出。
文本生成图像
G
Mozilla
751
3
Gemma 3 1b Pt Qat Q4 0 Gguf
Gemma是谷歌推出的轻量级尖端开放模型家族,基于与Gemini模型相同的研究和技术构建。
图像生成文本
G
google
97
6
Qwen2 VL 7B Latex OCR
Apache-2.0
基于Qwen2-VL-7B模型的微调版本,使用Unsloth和Huggingface TRL库进行训练,推理速度提升2倍。
文本生成图像
Transformers
英语
Q
erickrus
35
3
Llava NeXT Video 34B DPO
Llama 2 是 Meta 开发的一系列开源大语言模型,支持多种自然语言处理任务。
视频生成文本
Transformers
L
lmms-lab
214
10
Ko Deplot
Apache-2.0
ko-deplot是基于谷歌Pix2Struct架构的韩语视觉问答模型,通过微调Deplot模型训练而成,支持韩语和英语的图表图像问答任务。
图像生成文本
Transformers
支持多种语言
K
nuua
252
5