language:
- 葡萄牙语
datasets:
- TucanoBR/GigaVerbo
- TucanoBR/ViTucano-Pretrain
- TucanoBR/ViTucano-SFT
pipeline_tag: 图像文本到文本
license: apache-2.0
tags:
- 视觉
- 图像文本到文本
library_name: transformers
base_model:
- TucanoBR/Tucano-1b1
co2_eq_emissions:
emissions: 14100
source: CodeCarbon
geographical_location: 德国
hardware_used: NVIDIA A40
ViTucano-1b5-v1
模型概述
ViTucano是我们首次尝试创建原生葡萄牙语预训练的视觉助手。ViTucano基于Tucano系列构建,采用TinyLLaVA工厂框架。ViTucano整合了视觉理解与语言能力,成为处理多模态任务(如图像描述、视觉问答等)的工具。
详细信息
本仓库包含训练该模型的源代码。
预期用途
ViTucano模型的主要用途是作为研究开发原生葡萄牙语基础模型的基石。您可以根据Apache 2.0许可证对ViTucano模型进行微调和部署。若基于ViTucano模型开发微调模型,请自行进行风险和偏见评估。
非适用范围
- ViTucano模型不适用于直接部署,并非开箱即用产品,不应用于人机交互场景。
- ViTucano模型仅支持葡萄牙语,不适用于其他语言的图像到文本生成任务。
- ViTucano模型未经下游任务微调。
基础用法
⚠️通过transformers
库使用ViTucano模型需执行远程代码(trust_remote_code=True
)。执行的配置文件为configuration.py
和modeling_tinyllava_tucano.py
,均可在本仓库获取。⚠️
使用tinyllava
运行推理
from tinyllava.eval.run_tiny_llava import eval_model
model_path = "TucanoBR/ViTucano-1b5-v1"
prompt = "这张图片的主要元素是什么?"
image_file = "https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
conv_mode = "llama"
args = type('Args', (), {
"model_path": model_path,
"model": None,
"query": prompt,
"conv_mode": conv_mode,
"image_file": image_file,
"sep": ",",
"temperature": 0,
"top_p": None,
"num_beams": 1,
"max_new_tokens": 512
})()
eval_model(args)
使用transformers
运行推理
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_path = "TucanoBR/ViTucano-1b5-v1"
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModelForCausalLM.from_pretrained(
model_path,
trust_remote_code=True)
model.to(device)
tokenizer = AutoTokenizer.from_pretrained(model_path)
prompt = "这张图片的主要元素是什么?"
image_file="https://raw.githubusercontent.com/Nkluge-correa/TinyLLaVA_Factory/refs/heads/main/assets/sample.jpg"
output_text, _ = model.chat(prompt=prompt, image=image_file, tokenizer=tokenizer)
print(output_text)
局限性
与大多数基于网络抓取数据训练的多模态语言模型类似,ViTucano模型存在以下特性,使其难以直接应用于许多现实场景,特别是需要真实、可靠且无害文本生成的场景:
- 幻觉现象: 在解释或描述视觉输入时可能生成误导性或完全错误的信息。
- 偏见与毒性: 继承训练数据中的社会历史偏见,可能产生有害、冒犯性或误导性的内容描述。
- 视觉解释不可靠: 对图像中的物体、场景或文字可能产生错误解读。
- 多语言局限: 虽然针对葡萄牙语优化,但处理其他语言内容时可能出现错误。
- 重复与冗余: 可能产生重复响应或与输入无关的冗长描述。
因此,尽管我们以宽松许可证发布模型,仍强烈建议用户在实际应用前进行风险评估。
引用参考 🤗
ViTucano
@misc{correa2025vitucano,
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
title={{ViTucano: 葡萄牙语视觉助手}},
year=2025,
howpublished={\url{https://huggingface.co/TucanoBR/ViTucano-2b8-v1}},
doi={10.57967/hf/4530},
publisher={{Hugging Face}}
}
Tucano
@misc{correa2024tucanoadvancingneuraltext,
title={{Tucano: 推进葡萄牙语神经文本生成}},
author={Corr{\^e}a, Nicholas Kluge and Sen, Aniket and Falk, Sophia and Fatimah, Shiza},
year={2024},
eprint={2411.07854},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.07854},
}
TinyLLaVA工厂
@article{jia2024tinyllava,
title={TinyLLaVA工厂:小型大规模多模态模型的模块化代码库},
author={Jia, Junlong and Hu, Ying and Weng, Xi and Shi, Yiming and Li, Miao and Zhang, Xingjian and Zhou, Baichuan and Liu, Ziyu and Luo, Jie and Huang, Lei and Wu, Ji},
journal={arXiv预印本 arXiv:2405.11788},
year={2024}
}
LLaVA
@misc{liu2023llava,
title={视觉指令微调},
author={Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae},
publisher={NeurIPS},
year={2023},
}
致谢
我们衷心感谢波恩大学提供的Marvin集群访问权限,以及其高性能计算与分析实验室的支持。
许可证
ViTucano采用Apache License 2.0许可,详见LICENSE文件。