F

Finetune VQA 1B

由 TienAnh 开发
基于InternVL3-1B和Vintern-1B-v3_5微调的视觉问答模型,支持越南语,适用于图像内容理解和问答任务。
下载量 20
发布时间 : 5/10/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个视觉问答(VQA)模型,能够理解图像内容并回答相关问题。基于InternVL3-1B和Vintern-1B-v3_5架构微调,特别优化了越南语支持。

模型特点

多切片图像处理
支持动态图像预处理,自动将图像分割为多个切片以保持宽高比,提高处理效率
越南语优化
专门针对越南语进行了优化和微调,在越南语视觉问答任务上表现良好
高效推理
支持bfloat16精度和flash attention(可选),在保持精度的同时提高推理速度

模型能力

图像内容理解
视觉问答
图像关键信息提取
多语言支持(主要越南语)

使用案例

教育
越南语学习辅助
帮助学生通过图像理解越南语词汇和表达
提高语言学习效率和趣味性
内容审核
图像内容分析
自动分析图像内容并回答相关问题
提高审核效率和准确性