T

Taivisionlm Base V2

由 benchang1110 开发
首个支持繁体中文指令输入的视觉语言模型(12亿参数),兼容Transformers库,加载迅速、微调便捷
下载量 122
发布时间 : 9/17/2024
模型介绍
内容详情
替代品

模型简介

多模态大语言模型,结合SigLIP视觉编码器与Tinyllama语言模型,通过视觉投影器连接双模态,专为繁体中文视觉语言任务设计

模型特点

繁体中文支持
首个专门支持繁体中文指令输入的视觉语言模型
高效架构
仅12亿参数的轻量级设计,保持高性能的同时降低计算需求
Transformers兼容
完全兼容Hugging Face Transformers库,无需额外依赖
多阶段训练
采用单模态预训练、特征对齐和任务专项训练的三阶段开发流程

模型能力

图像描述生成
视觉问答
多模态理解
繁体中文文本生成

使用案例

内容理解
图像描述
为图像生成详细的繁体中文描述
v2版本能提供比v1更详细的视觉元素分析
视觉问答
回答关于图像内容的繁体中文问题
教育应用
辅助学习
帮助繁体中文用户理解视觉内容