日语视觉问答
Heron NVILA Lite 1B
Apache-2.0
基于NVILA-Lite架构训练的日语视觉语言模型,支持日语和英语的图文交互
图像生成文本
支持多种语言
H
turing-motors
460
2
Sarashina2 Vision 14b
MIT
Sarashina2-Vision-14B是由SB Intuitions开发的日本大型视觉语言模型,结合了Sarashina2-13B和Qwen2-VL-7B的图像编码器,在多个基准测试中表现优异。
图像生成文本
Transformers
支持多种语言
S
sbintuitions
192
6
Sarashina2 Vision 8b
MIT
Sarashina2-Vision-8B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2-7B和Qwen2-VL-7B的图像编码器,在多个基准测试中表现优异。
图像生成文本
Transformers
支持多种语言
S
sbintuitions
1,233
4
Llm Jp 3 Vila 14b
由日本国立情报学研究所开发的大型视觉语言模型,支持日语和英语,具备强大的图像理解和文本生成能力。
图像生成文本
Safetensors
日语
L
llm-jp
106
10
Convllava JP 1.3b 1280
ConvLLaVA-JP是一款支持高分辨率输入的日语视觉语言模型,能够就输入图像进行对话。
图像生成文本
Transformers
日语
C
toshi456
31
1
Llava Calm2 Siglip
Apache-2.0
llava-calm2-siglip 是一个实验性的视觉语言模型,能够用日语和英语回答关于图像的问题。
图像生成文本
Transformers
支持多种语言
L
cyberagent
3,930
25
Chat Vector Llava V1.5 7b Ja
一款能够用日语就输入图像进行对话的视觉语言模型,采用Chat Vector方法结合多个模型权重创建
图像生成文本
Transformers
日语
C
toshi456
26
1
Llava Jp 1.3b V1.1
LLaVA-JP是一个支持日语的多模态视觉语言模型,能够理解和生成关于输入图像的描述和对话。
图像生成文本
Transformers
日语
L
toshi456
90
11
Evovlm JP V1 7B
Apache-2.0
EvoVLM-JP-v1-7B 是一款实验性通用日语视觉语言模型,采用进化式模型融合方法创建
图像生成文本
Transformers
日语
E
SakanaAI
46
36
Heron Chat Blip Ja Stablelm Base 7b V1 Llava 620k
一个能够就输入图像进行对话的视觉语言模型,支持日语交互
图像生成文本
Transformers
日语
H
turing-motors
25
3
Heron Chat Blip Ja Stablelm Base 7b V1
这是一个能够就输入图像进行对话的视觉语言模型,支持日语交流。
图像生成文本
Transformers
日语
H
turing-motors
40
3
Llava Jp 1.3b V1.0
LLaVA-JP是一个能够就输入图像进行对话的日语视觉语言模型,基于LLaVA方法对llm-jp-1.3b-v1.0进行微调训练而成。
图像生成文本
Transformers
日语
L
toshi456
30
5
Heron Chat Git ELYZA Fast 7b V0
一个能够对输入图像进行对话的视觉语言模型,支持日语交互
图像生成文本
Transformers
日语
H
turing-motors
17
3