库名称: transformers
许可证: mit
数据集:
- 5CD-AI/LLaVA-CoT-o1-Instruct
语言:
- 越南语
- 英语
- 中文
任务标签: 图像文本到文本

这是我们强化学习增强前的基础推理模型
多模态大语言模型 × 推理模型 👀 🧠 🔍
在创建了Hugging Face 2024年度最受欢迎数据集之一的六个月后🎉,我们刚刚完成了Vintern推理模型的"基础版"!
- 该模型能基于图像进行长链条复杂推理,将每个推理步骤分解为多个子步骤,同时有效控制幻觉现象
- 尽管平衡多任务与推理极具挑战性,Vintern-3B-R-beta在各项基准测试中超越了所有前代版本
何时选择Vintern-1B-v3_5?何时选择Vintern-3B-R-beta?🤔
- Vintern-1B-v3_5:闪电速度⚡,适合越南语OCR和简单文本格式化📝,稳定性极高✅
- Vintern-3B-R-beta:更擅长处理复杂问题和结构化文档图像🔍📚,由于训练侧重推理,模糊文本的OCR性能可能略有影响🔍🤖
🚀 下一步计划?通过强化学习提升推理能力!
基准测试 📈

示例1:
<SUMMARY>题目要求确定餐厅菜单所列菜品中价格最高的选项。
解决此问题需要分析菜单中每道菜的价格并进行比较。</SUMMARY>
<CAPTION>拍摄到的餐厅菜单局部照片,显示菜品列表及对应价格。
菜单分为两栏,每栏列出不同菜品及其价格。</CAPTION>
<FIND_CANDIDATES_REASONING>寻找最高价菜品的步骤如下:
1. **菜品列表确认**:菜单包含完整菜品,包括:香茅辣椒炒田鸡、鱼露炸田鸡、辣椒烤鸡、鱼露炸鸡、香茅辣椒炒福寿螺...(完整列表略)
2. **价格提取**:每道菜价格清晰标注,如香茅辣椒炒田鸡55k,鱼露炸田鸡55k等
3. **价格比对**:需仔细比较所有菜品价格</FIND_CANDIDATES_REASONING>
<TOP3_CANDIDATES>
1. 香煎鲅鱼卷生菜(2条) 65k
2. 青椒烤鲅鱼(2条) 65k
3. 牛肉火锅 69k
</TOP3_CANDIDATES>
<REASONING>通过建立完整价格对照表(此处省略表格),最终确定最高价菜品是69k的牛肉火锅</REASONING>
<COUNTER_ARGUMENTS>可能的反对意见:
- 部分低价菜品存在
- 实际价格可能变动
</COUNTER_ARGUMENTS>
<CONCLUSION>牛肉火锅</CONCLUSION>
示例2:
用户:<图片>
请提取全部文本内容。
助手:CHÍNH PHỦ
Số: 626/QĐ-TTg
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM...(完整政府公文内容略)
快速开始
以下代码片段展示如何加载tokenizer和模型并生成内容:

import torch
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained(
"5CD-AI/Vintern-3B-R-beta",
torch_dtype=torch.bfloat16
).eval().cuda()
tokenizer = AutoTokenizer.from_pretrained("5CD-AI/Vintern-3B-R-beta")
引用
@misc{doan2024vintern1befficientmultimodallarge,
title={Vintern-1B:面向越南语的高效多模态大语言模型},
author={Khang T. Doan等},
year={2024},
eprint={2408.12480},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
参考文献
[1] Z. Chen等,《通过模型、数据和测试时扩展提升开源多模态模型性能边界》,arXiv预印本,2024