H

Hyperclovax SEED Vision Instruct 3B

由 naver-hyperclovax 开发
HyperCLOVAX-SEED-Vision-Instruct-3B是由NAVER开发的轻量化多模态模型,具备图文理解和文本生成能力,特别优化了韩语处理能力。
下载量 160.75k
发布时间 : 4/22/2025
模型介绍
内容详情
替代品

模型简介

该模型基于LLaVA架构,结合视觉编码器和语言模块,支持图像问答、图表解析和视频内容理解等任务,是韩国首个开源的视觉语言模型。

模型特点

轻量化设计
优化计算效率,相比同规模模型能以更少的视觉令牌实现竞争力表现
韩语优化
专为韩语优化的帕累托最优模型,在韩语基准测试中超越同规模开源模型
高效视频处理
通过动态帧采样实现低令牌消耗的视频理解,单视频最大支持1856令牌/108帧
多模态能力
同时支持文本、图像和视频输入,具备图文理解和文本生成能力

模型能力

视觉问答
图表解析
视频内容理解
韩语文本生成
多模态推理

使用案例

内容理解
图像问答
根据输入的图像回答相关问题
在TextVQA-Val基准测试中达到79.2分
视频内容分析
理解视频内容并回答相关问题
在VideoMME基准测试中达到48.2分
商业应用
产品识别
识别图像中的产品并提供相关信息
支持OCR和实体识别辅助输入