EraX-VL-7B-V1.5开源多模态模型 - 免费部署支持OCR与多语视觉问答，越南语尤佳

首页

Erax VL 7B V1.5

由 mxw1998 开发

EraX-VL-7B-V1.5是一款强大的多模态模型，专精于光学字符识别（OCR）和视觉问答（VQA），在多语言环境下表现卓越，尤其擅长越南语。

图像生成文本

Transformers

支持多种语言开源协议:Apache-2.0 #越南语OCR专家 #多模态医疗文档处理 #多轮视觉推理

下载量 26

发布时间 : 4/23/2025

模型简介

基于Qwen/Qwen2-VL-7B-Instruct微调的多模态模型，擅长文档识别、视觉问答和多轮推理，特别优化了越南语处理能力。

模型特点

卓越的越南语OCR能力

针对越南语文档（如医疗表格、发票、身份证等）进行了优化，识别精度高

多轮视觉问答

支持基于图像的复杂多轮问答和推理

多语言支持

除越南语外，还支持英语和中文处理

开源模型

基于Apache 2.0许可证开源，可自由使用和修改

模型能力

文档信息提取

图像内容描述

多轮视觉问答

多语言文本识别

医疗表格处理

商业单据分析

使用案例

医疗健康

医疗处方识别

从医疗处方中提取患者信息、药品清单和剂量

准确识别越南语医疗文档中的关键信息

体检报告分析

解析体检报告中的各项指标和诊断结果

结构化输出体检数据

金融服务

发票处理

自动识别发票中的金额、税号和商品信息

提高财务处理效率

身份验证

从身份证件中提取个人信息

简化KYC流程

政府服务

证件处理

处理各类政府证件如驾驶证、车辆登记证等

自动化证件信息录入

🚀 EraX-VL-7B-V1.5

EraX-VL-7B-V1.5是一款强大的多模态模型，专注于OCR（光学字符识别）和VQA（视觉问答）任务，尤其在越南语处理上表现出色。它能精准识别多种文档，如医疗表格、发票等，适用于医院、保险公司等场景。

Logo

✨ 主要特性

多语言支持：主要支持越南语，同时具备多语言处理能力。
精准识别：能准确识别多种文档，包括医疗表格、发票、销售账单等。
多轮问答：具备强大的多轮问答和推理能力。
高性能表现：在基准测试中，相比同等规模甚至参数大10倍的模型，表现卓越，且已开源。

模型信息

属性	详情
模型类型	具有超过70亿参数的多模态Transformer
语言 (NLP)	主要为越南语，具备多语言能力
许可证	Apache 2.0
微调基础模型	Qwen/Qwen2-VL-7B-Instruct
提示示例	Github上的一些常用提示示例。

开发与资助信息

开发者：
- Nguyễn Anh Nguyên (nguyen@erax.ai)
- Nguyễn Hồ Nam (BCG)
- Phạm Huỳnh Nhật (nhat.ph@erax.ai)
- Phạm Đình Thục (thuc.pd@erax.ai)
资助方：Bamboo Capital Group 和 EraX

重要提示

⚠️ 重要提示

EraX-VL-7B-V1.5不是像Tesseract那样的典型OCR工具，而是基于多模态大语言模型的模型。为了有效使用它，你可能需要根据任务仔细调整提示。

该模型尚未使用医疗（X光）数据集或汽车事故数据集进行微调。请关注2025年初发布的更新版本。

🚀 快速开始

安装必要的包：

python -m pip install git+https://github.com/huggingface/transformers accelerate
python -m pip install qwen-vl-utils
pip install flash-attn --no-build-isolation

然后你可以像这样使用 EraX-VL-7B-V1.5：

import os
import base64
import json

import cv2
import numpy as np
import matplotlib.pyplot as  plt

import torch
from transformers import Qwen2VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info

model_path = "erax/EraX-VL-7B-V1.5"

model = Qwen2VLForConditionalGeneration.from_pretrained(
    model_path,
    torch_dtype=torch.bfloat16,
    attn_implementation="eager", # replace with "flash_attention_2" if your GPU is Ampere architecture
    device_map="auto"
)

tokenizer =  AutoTokenizer.from_pretrained(model_path)
# processor = AutoProcessor.from_pretrained(model_path)

min_pixels = 256 * 28 * 28
max_pixels = 1280 * 28 * 28
processor = AutoProcessor.from_pretrained(
     model_path,
     min_pixels=min_pixels,
     max_pixels=max_pixels,
 )

image_path ="image.jpg"

with open(image_path, "rb") as f:
    encoded_image = base64.b64encode(f.read())
decoded_image_text = encoded_image.decode('utf-8')
base64_data = f"data:image;base64,{decoded_image_text}"

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": base64_data,
            },
            {
                "type": "text",
                "text": "Trích xuất thông tin nội dung từ hình ảnh được cung cấp."
            },
        ],
    }
]

# Prepare prompt
tokenized_text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)

image_inputs, video_inputs = process_vision_info(messages)

inputs = processor(
    text=[ tokenized_text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to("cuda")

# Generation configs
generation_config =  model.generation_config
generation_config.do_sample   = True
generation_config.temperature = 1.0
generation_config.top_k       = 1
generation_config.top_p       = 0.9
generation_config.min_p       = 0.1
generation_config.best_of     = 5
generation_config.max_new_tokens     = 2048
generation_config.repetition_penalty = 1.06

# Inference
generated_ids = model.generate(**inputs, generation_config=generation_config)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)

print(output_text[0])

📊 基准测试

🏆 排行榜

EraX-VL-7B-V1.5与同等规模甚至参数大10倍的其他模型相比，表现极为出色，并且我们将其开源！你可以随时重新运行基准测试。

模型	开源情况	VI-MTVQA得分
EraX-VL-7B-V1.5 🥇	✅	47.2
Qwen2-VL 72B 🥈	✘	41.6
ViGPT-VL 🥉	✘	39.1
EraX-VL-2B-V1.5	✅	38.2
EraX-VL-7B-V1	✅	37.6
Vintern-1B-V2	✅	37.4
Qwen2-VL 7B	✅	30.0
Claude3 Opus	✘	29.1
GPT-4o mini	✘	29.1
GPT-4V	✘	28.9
Gemini Ultra	✘	28.6
InternVL2 76B	✅	26.9
QwenVL Max	✘	23.5
Claude3 Sonnet	✘	20.8
QwenVL Plus	✘	18.1
MiniCPM-V2.5	✅	15.3

论文中评估模型的测试代码可在：EraX-JS-Company/EraX-MTVQA-Benchmark 找到。

🎉 API试用

如需API访问，请联系 nguyen@erax.ai。

💻 使用示例

1. OCR - 多图像光学字符识别

示例01: 身份证

正面视图

背面视图

来源: Google Support

{
    "Số thẻ": "037094012351",
    "Họ và tên": "TRỊNH QUANG DUY",
    "Ngày sinh": "04/09/1994",
    "Giới tính": "Nam",
    "Quốc tịch": "Việt Nam",
    "Quê quán": "Tân Thành, Kim Sơn, Ninh Bình",
    "Nơi thường trú": "Xóm 6\nTân Thành, Kim Sơn, Ninh Bình",
    "Có giá trị đến": "04/09/2034",
    "Đặc điểm nhân dạng": "sẹo chấm c. 1cm trên đuôi mắt trái",
    "Nơi cấp": "CỤC TRƯỞNG CỤC CẢNH SÁT\nQUẢN LÝ HÀNH CHÍNH VỀ TRẬT TỰ XÃ HỘI",
    "Ngày cấp": "10/12/2022",
    "Cán bộ ký tên": "Nguyễn Quốc Hùng",
    "Mã định danh": "IDVNM0940123513037094012351"
}

示例02: 驾驶证

正面视图

背面视图

来源: Báo Pháp luật

{
  "No.":"400116012313",
  "Fullname":"NGUYỄN VĂN DŨNG",
  "Date_of_birth":"08/06/1979",
  "Nationality":"VIỆT NAM",
  "Address":"X. Quỳnh Hầu, H. Quỳnh Lưu, T. Nghệ An Nghệ An, ngày/date 23 tháng/month 04 năm/year 2022",
  "Hang_Class":"FC",
  "Expires":"23/04/2027",
  "Place_of_issue":"Nghệ An",
  "Date_of_issue":"ngày/date 23 tháng/month 04 năm/year 2022",
  "Signer":"Trần Anh Tuấn",
  "Các loại xe được phép":"Ô tô hạng C kéo rơmoóc, đầu kéo kéo sơmi rơmoóc và xe hạng B1, B2, C, FB2 (Motor vehicle of class C with a trailer, semi-trailer truck and vehicles of classes B1, B2, C, FB2)",
  "Mã số":""
}

示例03: 车辆登记证

来源: Báo Vietnamnet

{
    "Tên chủ xe": "NGUYỄN TÔN NHUẬN",
    "Địa chỉ": "KE27 Kp3 P.TTTây Q7",
    "Nhãn hiệu": "HONDA",
    "Số loại": "DYLAN",
    "Màu sơn": "Trắng",
    "Năm sản xuất": "2012",
    "Số máy": "F03E-0057735",
    "Số khung": "SA04F-070410",
    "Dung tích": "152",
    "Số chỗ ngồi": "02",
    "Biển số đăng ký": "59V1-498.89",
    "Đăng ký lần đầu ngày": "08/06/2004",
    "Chức vụ": "Thượng tá",
    "Người ký": "Trần Văn Hiểu"
}

示例04: 车辆登记

来源: https://llumar.com.vn

{
    "vehicle": {
        "registration_number": "30A-072.36",
        "vehicle_inspection_number": "2903V-093515",
        "type": "ô tô con",
        "mark": "MERCEDES-BENZ",
        "model_code": "C300 W204",
        "engine_number": "27294732096079",
        "chassis_number": "RLMGF5EX3DV005333",
        "manufactured_year_and_country": "2013, Việt Nam",
        "life_time_limit_to": "",
        "commercial_use": "",
        "modification": ""
    },
    "specifications": {
        "wheel_formula": "4x2",
        "wheel_tread": "1521/1512 (mm)",
        "overall_dimension": "4650 x 1770 x 1429 (mm)",
        "largest_luggage_container_dimension": "",
        "wheelbase": "2760 (mm)",
        "kerb_mass": "1575 (kg)",
        "design_authorized_pay_load": "",
        "design_authorized_total_mass": "2090/2090 (kg)",
        "design_authorized_towed_mass": "",
        "permissible_number_of_pers_carried": "5 chỗ ngồi, 0 chỗ đứng, 0 chỗ nằm",
        "type_of_fuel_used": "Xăng",
        "engine_displacement": "2996 (cm3)",
        "max_output_per_rpm": "170(kW)/6000vph",
        "number": "KC-1292285"
    },
    "inspection_report_number": "2905V-20953/16",
    "valid_until": "31/01/2018",
    "place_date_of_issue": "Hà Nội, ngày 1 tháng 8 năm 2016",
    "inspection_center": "ĐƠN VỊ KIỂM ĐỊNH XE CƠ GIỚI",
    "signature": "Ngọc Tuấn",
    "equipped_with_tachograph": "",
    "inspection_stamp_was_not_issued": "",
    "notes": "Biển đăng ký nền trắng"
}

示例05: 收据

来源: https://tintucketoan.com/

{
    'Mẫu số': '01GKTKT3/001', 
    'Ký hiệu': 'TC/18P', 
    'Số': '0000030', 
    'Họ tên người mua hàng': None, 
    'Tên đơn vị': 'Công Ty TNHH Kế Toán Hà Nội', 
    'Mã số thuế': '0106235869', 
    'Địa chỉ': 'Số 49 Ngõ 322 Lê Trọng Tấn, phường Khương Mai, quận Thanh Xuân, Hà Nội', 
    'Hình thức thanh toán': 'TM', 
    'STT': None, 
    'Tên hàng hóa, dịch vụ': 'Tra cứu phần mềm thư viện pháp luật trực tuyến', 
    'Đơn vị tính': None, 
    'Số lượng': None, 
    'Đơn giá': '168.000', 
    'Thành tiền': '2.016.000', 
    'Thuế suất GTGT': None, 
    'Tiền thuế GTGT': None, 
    'Tổng cộng tiền thanh toán': '2.016.000', 
    'Số tiền viết bằng chữ': 'Hai triệu, không trăm mười sáu nghìn đồng', 
    'Người bán hàng': 'Bùi Văn Hùng', 
    'Chức vụ người bán hàng': 'TRƯỞNG CHI NHÁNH'
}

2.1 图像描述

该图像是一个按年龄划分的BMI图表，展示了儿童身体质量指数（BMI）与年龄之间的关系。图表被划分为不同颜色的区域，对应不同的BMI水平：

红色区域：BMI指数高于25，表示肥胖状况。
黄色区域：BMI指数在18到25之间，表示有肥胖风险。
浅绿色区域：BMI指数在16到18之间，表示营养健康状况良好。
深绿色区域：BMI指数低于16，表示体重不足状况。

纵轴表示BMI指数，横轴表示年龄（以年为单位）。深灰色曲线表示按年龄划分的BMI标准线。这些曲线展示了BMI随时间的变化，有助于评估儿童体重的发展情况。例如，3岁以下的儿童，BMI通常在体重不足或营养健康良好的范围内波动。随着儿童长大，BMI有逐渐增加的趋势，但增长速度可能因个体而异。图表还显示了百分位数（Percentile），表示与同年龄组儿童相比，BMI较低或较高的儿童比例。这有助于将儿童的BMI与国际标准进行比较。

2.2 图像描述

这幅图像捕捉到了一个充满情感和悲伤的场景，似乎发生在一个贫困地区，可能是一个定居点或贫民窟。图像的中心是一辆由一头驴拉着的手推车。手推车上有一群人，包括一位看起来像是向导的年长男子、一位穿着黑色外套的妇女、一位穿着灰色衣服的年轻妇女、一个用头巾遮住脸的小女孩和一个穿着绿色衣服的小男孩。他们似乎正在从一个被破坏的地区转移到另一个地方。他们周围是碎片、垃圾和倒塌的建筑物，显示出一个艰难和匮乏的生活环境。在他们身后，有一些人正在步行或骑自行车，一些人还带着行李。天空湛蓝，但整个图像的气氛沉重而悲伤。这可能是一个移民、避难或其他悲惨事件的场景。

3. 多轮视觉问答与推理

来源: https://kenh14.vn

用户：请提供患者信息
助手：姓名：NGUYỄN THỊ THÁI TRINH，出生日期：09/09/1993，性别：女，地址：TÂN ĐỊNH - Q1 - TPHCM，医保卡号：19169080，病历号：2569501，区域代码（K1/K2/K3）：2
用户：她被诊断出患有什么疾病？
助手：肠道细菌感染，未确定菌种
用户：患者有既往病史吗？如果有，是什么？
助手：饮食导致的钙缺乏
用户：患者进行了哪些检查？
助手：[NQ286] 外周血细胞总体分析（通过激光计数仪），[NQ286] 电解质图谱（钠、钾、氯）[血液]，[NQ286] 谷丙转氨酶（GPT）活性测定 [血液]，[NQ286] 谷草转氨酶（GOT）活性测定 [血液]，[NQ286] 全钙定量 [血液]，[NQ286] 肌酐定量 [血液]，[NQ286] 葡萄糖定量 [血液]，[NQ286] 血尿素定量 [血液]，[NQ286] 腹部超声（肝脏、胆囊、胰腺、脾脏、肾脏、膀胱）
用户：患者需要支付的医疗用品费用是多少？
助手：19,708
用户：患者需要支付的药品和输液费用是哪些，总费用是多少？
助手：Atropin Sulfat (Syv2019)、Bicefzidim 1g (Syv2019)、GONCAL (Syv2019)、Lactated Ringer's - 500ml (Syv2019)、Nước cất pha tiêm 5ml (Syv2019)、Sodium Chloride 0.9% - 500ml (Syv2019)、Vincomid (Syv2019)、Vinopa (Syv2019)，总计45,234越南盾

📚 详细文档

参考文献

[1] Qwen team. Qwen2-VL. 2024. [2] Bai, Jinze, et al. "Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond." arXiv preprint arXiv:2308.12966 (2023). [4] Yang, An, et al. "Qwen2 technical report." arXiv preprint arXiv:2407.10671 (2024). [5] Chen, Zhe, et al. "Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. [6] Chen, Zhe, et al. "How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites." arXiv preprint arXiv:2404.16821 (2024). [7] Tran, Chi, and Huong Le Thanh. "LaVy: Vietnamese Multimodal Large Language Model." arXiv preprint arXiv:2404.07922 (2024).