Vitucano 2b8 V1
ViTucano是首个原生葡萄牙语预训练的视觉助手,融合视觉理解与语言能力,适用于多模态任务如图像描述、视觉问答等。
下载量 86
发布时间 : 1/13/2025
模型简介
基于Tucano系列开发的葡萄牙语视觉语言模型,采用TinyLLaVA工厂框架,支持图像文本生成任务。
模型特点
原生葡萄牙语支持
专门针对葡萄牙语进行预训练和优化的视觉语言模型
多模态能力
结合视觉模块(SigLIP)和语言模型,实现图像理解和文本生成
高效架构
基于TinyLLaVA框架构建,在保持性能的同时优化计算效率
模型能力
图像描述生成
视觉问答
多模态理解
葡萄牙语文本生成
使用案例
内容生成
自动图像标注
为葡萄牙语内容平台自动生成图像描述
提高内容可访问性和SEO优化
辅助技术
视觉辅助
为视障用户提供葡萄牙语图像描述服务
增强数字可访问性
🚀 ViTucano-2b8-v1
ViTucano 是我们首次尝试创建的以葡萄牙语进行原生预训练的视觉助手。它将视觉理解与语言能力相结合,为多模态任务(如图像描述、视觉问答等)提供了强大的工具。
🚀 快速开始
基本使用
⚠️ 通过 transformers
库使用 ViTucano 模型需要执行远程代码(trust_remote_code=True
)。执行的文件是 configuration.py
和 modeling_tinyllava_tucano.py
,这两个文件都可以在本仓库中找到。⚠️
使用 tinyllava
进行推理
from tinyllava.eval.run_tiny_llava import eval_model
model_path = "TucanoBR/ViTucano-2b8-v1"
prompt = "Quais os principais elementos dessa imagem?"
image_file = "https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
conv_mode = "llama"
args = type('Args', (), {
"model_path": model_path,
"model": None,
"query": prompt,
"conv_mode": conv_mode,
"image_file": image_file,
"sep": ",",
"temperature": 0,
"top_p": None,
"num_beams": 1,
"max_new_tokens": 512
})()
eval_model(args)
使用 transformers
进行推理
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_path = "TucanoBR/ViTucano-2b8-v1"
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModelForCausalLM.from_pretrained(
model_path,
#torch_dtype=torch.bfloat16, # for optimized inference 🚀
#attn_implementation="flash_attention_2" # for optimized inference 🚀
trust_remote_code=True)
model.to(device)
tokenizer = AutoTokenizer.from_pretrained(model_path)
prompt = "Quais os principais elementos dessa imagem?"
image_file="https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
output_text, _ = model.chat(prompt=prompt, image=image_file, tokenizer=tokenizer)
print(output_text)
✨ 主要特性
- 多模态融合:将视觉理解与语言能力相结合,适用于多种多模态任务。
- 葡萄牙语原生预训练:专为葡萄牙语设计,在葡萄牙语相关任务上表现出色。
📚 详细文档
模型概述
ViTucano 基于 Tucano 系列,使用 TinyLLaVA Factory 构建。它能够处理图像和文本输入,并生成相应的文本输出。
详细信息
属性 | 详情 |
---|---|
模型架构 | TinyLlavaForConditionalGeneration |
视觉塔 | google/siglip-so400m-patch14-384 |
参数量 | 2,882,351,680 |
上下文长度 | 4096 个标记 |
训练数据集 | GigaVerbo、ViTucano-Pretrain、ViTucano-SFT |
语言 | 葡萄牙语 |
GPU | 8 张 NVIDIA A40 |
训练时间 | 约 27 小时 |
碳排放 | 25.4 千克二氧化碳(德国) |
总能耗 | 66 千瓦时 |
本仓库包含用于训练此模型的 源代码。
预期用途
ViTucano 模型的主要预期用途是作为涉及葡萄牙语基础模型的研究和开发的基础。如果您的使用遵循 Apache 2.0 许可证,也可以对 ViTucano 模型进行微调并部署。如果您决定将 ViTucano 模型作为微调模型的基础,请自行进行风险和偏差评估。
不适用场景
- 不适合部署:ViTucano 模型不是即插即用的产品,不适合用于面向人类的交互。
- 仅支持葡萄牙语:ViTucano 模型仅适用于葡萄牙语,不适用于其他语言的图像到文本生成任务。
- 未针对特定下游任务微调:ViTucano 模型未针对任何特定的下游任务进行微调。
局限性
与几乎所有在从网络上抓取的大型数据集上训练的多模态语言模型一样,ViTucano 模型在许多实际应用中并非现成的解决方案,特别是那些需要事实、可靠和无毒文本生成的应用。ViTucano 模型存在以下问题:
- 幻觉问题:在解释或描述视觉输入时,ViTucano 模型可能会生成误导性或完全错误的信息,导致产生可能被误认为是准确观察或事实陈述的幻觉。
- 偏差和毒性:ViTucano 模型继承了训练数据中的社会和历史刻板印象。这些偏差可能会在对视觉或文本内容的有害、冒犯性或误导性描述或分析中表现出来。
- 不可靠的视觉解释:ViTucano 模型可能会对视觉元素(包括图像中的对象、场景或文本)产生不准确的解释。在没有人工验证的情况下,此类输出不应被视为可靠的。
- 多模态语言限制:虽然 ViTucano 模型针对葡萄牙语进行了优化,但处理多语言视觉和文本上下文可能会导致错误、误解或不充分的响应,特别是对于非葡萄牙语内容。
- 重复和无关细节:在特定超参数配置下,ViTucano 模型可能会表现出重复的响应模式,或者生成与给定视觉或文本输入无关的冗长描述。
因此,尽管我们的模型以宽松的许可证发布,但我们敦促用户在将其用于实际应用之前进行风险分析。
📄 许可证
ViTucano 采用 Apache 许可证 2.0 版。有关更多详细信息,请参阅 LICENSE 文件。
🔖 引用方式
ViTucano
@misc{correa2025vitucano,
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
title={{ViTucano: A Portuguese Vision Assitant}},
year=2025,
howpublished={\url{https://huggingface.co/TucanoBR/ViTucano-2b8-v1}},
doi={10.57967/hf/4530},
publisher={{Hugging Face}}
}
Tucano
@misc{correa2024tucanoadvancingneuraltext,
title={{Tucano: Advancing Neural Text Generation for Portuguese}},
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
year={2024},
eprint={2411.07854},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.07854},
}
TinyLLaVA Factory
@article{jia2024tinyllava,
title={TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models},
author={Jia, Junlong and Hu, Ying and Weng, Xi and Shi, Yiming and Li, Miao and Zhang, Xingjian and Zhou, Baichuan and Liu, Ziyu and Luo, Jie and Huang, Lei and Wu, Ji},
journal={arXiv preprint arXiv:2405.11788},
year={2024}
}
LLaVA
@misc{liu2023llava,
title={Visual Instruction Tuning},
author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
publisher={NeurIPS},
year={2023},
}
🙏 致谢
Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文