模型简介
模型特点
模型能力
使用案例
license: apache-2.0 language:
- 越南语
- 英语
- 中文 base_model:
- Qwen/Qwen2-VL-7B-Instruct library_name: transformers tags:
- erax
- 多模态
- erax-vl-7B
- 保险
- 光学字符识别
- 越南语
- 波士顿咨询集团
- 图像转文本 pipeline_tag: 视觉问答
widget:
- src: images/photo-1-16505057982762025719470.webp example_title: 测试1
- src: images/vt-don-thuoc-f0-7417.jpeg example_title: 测试2
EraX-VL-7B-V1.5
简介 🎉
继广受欢迎的**EraX-VL-7B-V1.0模型之后,我们自豪地推出EraX-VL-7B-V1.5**,这是一款强大的多模态模型,专精于光学字符识别(OCR)和视觉问答(VQA),在多语言环境下表现卓越🌍,尤其擅长越南语🇻🇳。该模型在各类文档📝(包括医疗表格🩺、发票🧾、销售单据💳、报价单📄和医疗记录💊)的精准识别方面表现突出,预计将对医院🏥、诊所💉、保险公司🛡️等应用场景📋大有裨益。基于高质量且越南语流畅的Qwen/Qwen2-VL-2B-Instruct[1]模型,我们对EraX-VL-7B-V1.5
进行了微调以提升其性能。我们计划持续改进并免费发布新版本,同时将在近期分享性能基准测试结果。
EraX-VL-7B-V1.5的一大亮点是其出色的多轮问答与推理能力!
重要提示:
- EraX-VL-7B-V1.5并非Tesseract等传统OCR工具,而是基于多模态LLM的模型。要有效使用,您可能需要根据任务精心设计提示词。
- 该模型尚未针对医疗(X光)数据集或车辆事故数据进行微调(未来版本将更新)。敬请期待2025年初的升级版本。
EraX-VL-7B-V1.5是我们EraX's LànhGPT系列LLM模型的新成员。
- 开发团队:
- 阮英俊 (nguyen@erax.ai)
- 阮胡南 (波士顿咨询集团)
- 范辉日 (nhat.ph@erax.ai)
- 范廷硕 (thuc.pd@erax.ai)
- 资助方: Bamboo Capital Group 和 EraX
- 模型类型: 超过70亿参数的多模态Transformer
- 支持语言(NLP): 主要越南语,具备多语言能力
- 许可证: Apache 2.0
- 微调基础: Qwen/Qwen2-VL-7B-Instruct
- 提示词示例: Github上的常用提示词示例
基准测试 📊
🏆 排行榜
EraX-VL-7B-V1.5在同等规模甚至大10倍的模型中表现卓越,且我们开源了!您可随时重新运行基准测试。
模型 | 开源 | VI-MTVQA |
---|---|---|
EraX-VL-7B-V1.5 🥇 | ✅ | 47.2 |
Qwen2-VL 72B 🥈 | ✘ | 41.6 |
ViGPT-VL 🥉 | ✘ | 39.1 |
EraX-VL-2B-V1.5 | ✅ | 38.2 |
EraX-VL-7B-V1 | ✅ | 37.6 |
Vintern-1B-V2 | ✅ | 37.4 |
Qwen2-VL 7B | ✅ | 30.0 |
Claude3 Opus | ✘ | 29.1 |
GPT-4o mini | ✘ | 29.1 |
GPT-4V | ✘ | 28.9 |
Gemini Ultra | ✘ | 28.6 |
InternVL2 76B | ✅ | 26.9 |
QwenVL Max | ✘ | 23.5 |
Claude3 Sonnet | ✘ | 20.8 |
QwenVL Plus | ✘ | 18.1 |
MiniCPM-V2.5 | ✅ | 15.3 |
论文中评估模型的测试代码可在: EraX-JS-Company/EraX-MTVQA-Benchmark找到
API试用 🎉
请联系nguyen@erax.ai咨询API访问事宜。
示例 🧩
1. 多图像光学字符识别
示例01:身份证

正面

背面
来源: Google支持
{
"卡号": "037094012351",
"姓名": "郑光维",
"出生日期": "1994年9月4日",
"性别": "男",
"国籍": "越南",
"籍贯": "宁平省金山县新成乡",
"常住地址": "宁平省金山县新成乡6村",
"有效期至": "2034年9月4日",
"面部特征": "左眼尾有约1厘米点状疤痕",
"签发机关": "社会秩序行政管理警察总局局长",
"签发日期": "2022年12月10日",
"签发官员": "阮国雄",
"身份识别码": "IDVNM0940123513037094012351"
}
示例02:驾驶证

正面

背面
来源: 法律报
{
"编号":"400116012313"
"姓名":"阮文勇"
"出生日期":"1979年6月8日"
"国籍":"越南"
"地址":"义安省琼琉县琼厚乡
签发日期:2022年4月23日"
"准驾车型":"FC"
"有效期至":"2027年4月23日"
"签发地点":"义安省"
"签发日期":"2022年4月23日"
"签发人":"陈英俊"
"准驾车型说明":"可牵引挂车的C类汽车、半挂牵引车及B1、B2、C、FB2类车辆"
"识别码":""
}
示例03:车辆登记证

来源: 越南网
{
"车主姓名": "阮孙润",
"地址": "第7郡新富坊第3区KE27号",
"品牌": "本田",
"型号": "DYLAN",
"颜色": "白色",
"生产年份": "2012",
"发动机号": "F03E-0057735",
"车架号": "SA04F-070410",
"排量": "152",
"座位数": "02",
"车牌号": "59V1-498.89",
"首次登记日期": "2004年6月8日",
"签发职务": "上校",
"签发人": "陈文晓"
}
示例04:车辆检验证

{
"车辆信息": {
"车牌号": "30A-072.36",
"检验编号": "2903V-093515",
"类型": "轿车",
"品牌": "梅赛德斯-奔驰",
"型号代码": "C300 W204",
"发动机号": "27294732096079",
"车架号": "RLMGF5EX3DV005333",
"生产年份及国家": "2013年,越南",
"使用年限至": "",
"商业用途": "",
"改装情况": ""
},
"技术参数": {
"驱动形式": "4x2",
"轮距": "1521/1512 (毫米)",
"外形尺寸": "4650 x 1770 x 1429 (毫米)",
"最大行李厢尺寸": "",
"轴距": "2760 (毫米)",
"整备质量": "1575 (千克)",
"设计载质量": "",
"设计总质量": "2090/2090 (千克)",
"设计牵引质量": "",
"准乘人数": "5座,0站,0卧",
"燃料类型": "汽油",
"发动机排量": "2996 (立方厘米)",
"最大功率": "170(千瓦)/6000转",
"编号": "KC-1292285"
},
"检验报告编号": "2905V-20953/16",
"有效期至": "2018年1月31日",
"签发地点及日期": "河内,2016年8月1日",
"检验机构": "机动车辆检验单位",
"签发人": "玉俊",
"是否安装行驶记录仪": "",
"未签发检验印章": "",
"备注": "白底车牌"
}
示例05:收据

{
'模板编号': '01GKTKT3/001',
'符号': 'TC/18P',
'编号': '0000030',
'购货人姓名': None,
'单位名称': '河内会计有限公司',
'税号': '0106235869',
'地址': '河内市青春郡芒街49巷322号',
'支付方式': '现金',
'序号': None,
'商品/服务名称': '在线法律图书馆软件查询服务',
'单位': None,
'数量': None,
'单价': '168,000',
'金额': '2,016,000',
'增值税率': None,
'增值税额': None,
'应付总额': '2,016,000',
'大写金额': '贰佰零壹万陆仟越南盾',
'销售人员': '裴文雄',
'销售人员职务': '分公司经理'
}
2.1 图像描述

该图像是年龄BMI图表,展示了儿童身体质量指数(BMI)与年龄的关系。图表按不同BMI范围划分为多个颜色区域:
- 红色区域: BMI高于25,表示肥胖状态
- 黄色区域: BMI在18至25之间,显示肥胖风险
- 浅绿色区域: BMI在16至18之间,表示营养状况良好
- 深绿色区域: BMI低于16,显示体重不足
纵轴表示BMI指数,横轴表示年龄(以年为单位)。深灰色曲线显示年龄标准BMI曲线。这些曲线反映了BMI随时间的变化趋势,有助于评估儿童的体重发展情况。例如,3岁以下儿童的BMI通常处于体重不足或营养良好区域。随着儿童成长,BMI呈上升趋势,但增长速度因人而异。图表还显示了百分位数(Percentile),表明儿童BMI在同龄群体中的相对位置,便于与国际标准进行比较。
2.2 图像描述
.jpg)
这张照片捕捉了一个令人动容的悲惨场景,似乎发生在贫困地区,可能是定居点或贫民窟。画面中心是一辆由驴拉动的推车,车上载有一群人:一位看似向导的年长男子、穿黑袍的妇女、穿灰衣的年轻女性、用头巾遮面的小女孩以及穿绿衣的男孩。他们正从废墟区域转移至他处。周围散落着瓦砾、垃圾和倒塌建筑,显示出艰难困苦的生活环境。背景中有其他人步行或骑自行车,部分携带行李。尽管天空湛蓝,但整体氛围沉重悲伤。这可能是移民、避难或灾难事件的场景。
3. 多轮视觉问答与推理

-
用户: 请提供患者基本信息
-
助手: 姓名:阮氏泰贞,出生日期:1993年9月9日,性别:女,地址:胡志明市第1郡新定区,医保卡号:19169080,就诊号:2569501,区域代码(K1/K2/K3):2
-
用户: 诊断结果是什么?
-
助手: 细菌性肠道感染,未确定具体菌种
-
用户: 患者是否有病史?若有请说明
-
助手: 饮食性钙缺乏症
-
用户: 患者进行了哪些检查?
-
助手: [NQ286]外周血细胞分析(激光计数法)、[NQ286]电解质(Na, K, Cl)[血液]、[NQ286]ALT(GPT)活性测定[血液]、[NQ286]AST(GOT)活性测定[血液]、[NQ286]总钙定量[血液]、[NQ286]肌酐定量[血液]、[NQ286]葡萄糖定量[血液]、[NQ286]尿素氮测定[血液]、[NQ286]腹部超声(肝胆胰脾肾膀胱)
-
用户: 患者需支付的医疗材料费是多少?
-
助手: 19,708越南盾
-
用户: 患者需支付的输液药物有哪些,总金额多少?
-
助手: 硫酸阿托品(Syv2019)、头孢他啶1g(Syv2019)、GONCAL(Syv2019)、乳酸林格液500ml(Syv2019)、注射用水5ml(Syv2019)、0.9%氯化钠500ml(Syv2019)、Vincomid(Syv2019)、Vinopa(Syv2019),总计45,234越南盾
快速开始 🎮
安装必要软件包:
python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation
使用示例:
import os
import base64
import json
import cv2
import numpy as np
import matplotlib.pyplot as plt
import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model_path = "erax/EraX-VL-7B-V1.5"
model = Qwen2VLForConditionalGeneration.from_pretrained(
model_path,
torch_dtype=torch.bfloat16,
attn_implementation="eager", # Ampere架构GPU可替换为"flash_attention_2"
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)
min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
model_path,
min_pixels=min_pixels,
max_pixels=max_pixels,
)
image_path ="image.jpg"
with open(image_path, "rb") as f:
encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"image": base64_data,
},
{
"type": "text",
"text": "提取所提供图像中的内容信息"
},
],
}
]
# 准备提示词
tokenized_text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[ tokenized_text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
)
inputs = inputs.to("cuda")
# 生成配置
generation_config = model.generation_config
generation_config.do_sample = True
generation_config.temperature = 1.0
generation_config.top_k = 1
generation_config.top_p = 0.9
generation_config.min_p = 0.1
generation_config.best_of = 5
generation_config.max_new_tokens = 2048
generation_config.repetition_penalty = 1.06
# 推理
generated_ids = model.generate(**inputs, generation_config=generation_config)
generated_ids_trimmed = [
out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text[0])
参考文献 📑
[1] Qwen团队. Qwen2-VL. 2024.
[2] 白锦泽等. "Qwen-VL:用于理解、定位、文本阅读及更多功能的通用视觉语言模型." arXiv预印本 arXiv:2308.12966 (2023).
[4] 杨安等. "Qwen2技术报告." arXiv预印本 arXiv:2407.10671 (2024).
[5] 陈哲等. "Internvl:扩展视觉基础模型并适配通用视觉语言任务." IEEE/CVF计算机视觉与模式识别会议论文集. 2024.
[6] 陈哲等. "我们距离GPT-4V还有多远?通过开源套件缩小与商业多模态模型的差距." arXiv预印本 arXiv:2404.16821 (2024).
[7] 陈志与黎黄香. "LaVy:越南多模态大语言模型." arXiv预印本 arXiv:2404.07922 (2024).
联系方式 🤝
- 有关本作品或API试用咨询,请联系阮英俊 nguyen@erax.ai
- 关注我们的EraX Github








