A

Asagi 14B

由 MIL-UT 开发
Asagi-14B是一个大规模的日语视觉与语言模型(VLM),在广泛的日语数据集上进行了训练,整合了多样化的数据来源。
下载量 83
发布时间 : 1/9/2025
模型介绍
内容详情
替代品

模型简介

Asagi-14B是一个结合视觉编码器和大语言模型的视觉与语言模型,主要用于图像文本到文本的任务,支持日语。

模型特点

多模态能力
结合视觉编码器和语言模型,能够理解和生成基于图像的文本描述。
日语优化
专门针对日语进行了训练和优化,适用于日语场景下的视觉与语言任务。
数据合成
训练数据大部分通过模型合成,避免了使用限制性许可的LLM输出。

模型能力

图像描述生成
视觉问答
多模态推理
日语文本生成

使用案例

图像理解与描述
场景识别
识别图像中的场景并生成详细描述。
例如,识别出照片拍摄于东京的某个著名地点,并描述其细节。
物体识别
识别图像中的物体并生成描述。
例如,识别出图像中的建筑、自然景观等。
视觉问答
图像内容问答
回答关于图像内容的详细问题。
例如,回答图像拍摄地点、图像中的物体等。