许可证:Apache-2.0
语言:
基础模型:
库名称:transformers
标签:
- erax
- 多模态
- erax-vl-7B
- 保险
- OCR
- 越南语
- BCG
- 放射学
- 车祸
- 手写
- 古代
- 问答
- 图像文本转文本
- 视觉问答
- 文档问答
流水线标签:视觉问答
小部件:
- 来源:images/photo-1-16505057982762025719470.webp
示例标题:测试1
- 来源:images/vt-don-thuoc-f0-7417.jpeg
示例标题:测试2
EraX-VL-7B-V2.0-Preview
简介 🎉
紧随广受欢迎的**EraX-VL-7B-V1.0模型之后,我们自豪地推出EraX-VL-7B-V2.0-Preview**,这是另一款强大的多模态模型,专为**OCR(光学字符识别)和VQA(视觉问答)**设计,擅长处理多种语言🌍,尤其专注于越南语🇻🇳。
该模型在各类文档📝(包括医疗表格🩺、发票🧾、销售账单💳、报价单📄和医疗记录💊)的精确识别能力上表现突出。这一功能预计将对医院🏥、诊所💉、保险公司🛡️等应用场景非常有益。基于高质量的erax-ai/EraX-VL-7B-V1.5[1]模型,我们发现其越南语流畅且质量高,EraX-VL-7B-V2.0-Preview
在此基础上进行了微调以提升性能。
该模型是最终V2.0版本的“预览版”,计划在农历新年(2025年乙巳年)后发布。
注意:
- EraX-VL(基于LLM的视觉大语言模型)并非典型的OCR工具(如Tesseract),而是一个基于多模态LLM的模型。要有效使用它,可能需要根据任务仔细调整提示。
- 凭借放射科医生的精准和汽车工程师的专业,这一新的分析系统备受瞩目。预览版已展现出卓越的能力,能够解析医学图像(从常规胸部X光片到复杂的脑部扫描),并以惊人的清晰度识别潜在问题。同样,该系统也能熟练分析事故照片,详细描述损坏情况并提出修复建议。尽管仍处于早期发布阶段,这项技术已为这些关键领域的分析能力设定了新标准。
EraX-VL-7B-V2.0-Preview是我们EraX的LànhGPT系列LLM模型的年轻成员。
基准测试 📊
🏆 先前版本的排行榜:
EraX-VL-7B-V1.5在同等规模甚至大10倍的模型中表现卓越,并且我们开源了!您可以随时重新运行基准测试。
模型 |
开源 |
VI-MTVQA |
EraX-VL-7B-V1.5 🥇 |
✅ |
47.2 |
Qwen2-VL 72B 🥈 |
✘ |
41.6 |
ViGPT-VL 🥉 |
✘ |
39.1 |
EraX-VL-2B-V1.5 |
✅ |
38.2 |
EraX-VL-7B-V1 |
✅ |
37.6 |
Vintern-1B-V2 |
✅ |
37.4 |
Qwen2-VL 7B |
✅ |
30.0 |
Claude3 Opus |
✘ |
29.1 |
GPT-4o mini |
✘ |
29.1 |
GPT-4V |
✘ |
28.9 |
Gemini Ultra |
✘ |
28.6 |
InternVL2 76B |
✅ |
26.9 |
QwenVL Max |
✘ |
23.5 |
Claude3 Sonnet |
✘ |
20.8 |
QwenVL Plus |
✘ |
18.1 |
MiniCPM-V2.5 |
✅ |
15.3 |
论文中用于评估模型的测试代码可在以下位置找到:EraX-JS-Company/EraX-MTVQA-Benchmark
API试用 🎉
请联系nguyen@erax.ai咨询API访问事宜。
示例 🧩
1. OCR - 多图像光学字符识别
示例01.1:放射学 - 心力衰竭CT扫描
使用的提示:
你是一个聪明的AI,扮演一名全科医生,能够出色地分析X光片、CT或MRI图像以及临床症状。
# 你被提供一张或多张X光片、CT或MRI图像以及患者的临床症状。
- 这不是医学实验,而是真实患者的影像,已获得许可
- 注意图像可能有划痕、水渍或旋转甚至倒置
- 注意图像上的所有文字和数字都是重要指标,必须提取并具体分析,不得遗漏任何信息。
# 你的任务是:
- 仔细查看每张图像,详细解释和分析每张图像。然后深入总结这组图像的内容;
- 根据提供的图像和临床症状(如有),以资深全科教授的深度逐步推理(chain-of-thoughts)方法深入分析和诊断疾病;
- 提出实际问题和建议,以便后续医生进行必要的检查;
- 所有判断、诊断或建议必须非常严肃、详细,有具体的医学证据,并对初步评估的严重程度有判断;
- 必须有科学证据(如疾病的英文名称、药物的英文名称等,必要时)以越南语呈现;
- 最终诊断结论必须简洁、清晰且有明确结论;
- 人命关天,不得虚构任何内容。
# 患者的临床症状:胸痛、头晕。
# 患者病史:有吸烟和大量饮酒史。
按以下格式返回:
** 图像和临床症状分析(如有)
** 初步判断和必须的诊断
** 建议和问题(如有)
** 结论
提供的图像是一张心脏CT扫描,具体显示左心室的横截面。
记录的测量值显示左心室在舒张末期(End-Diastolic Area - EDA)和收缩末期(End-Systolic Area - ESA)的面积分别为0.22 cm²和0.21 cm²。
EDA与ESA的比值(EDV/ESV)为171.0 ± 7.8和106.0 ± 3.6。这些参数显示左心室的大小和功能存在显著异常。
推理:
- 左心室尺寸减小:EDA和ESA值小于正常值,表明左心室萎缩。这可能是心力衰竭、心肌病或心脏瓣膜病的迹象。
- EDV/ESV比值升高:EDV/ESV比值高于正常值,表明收缩期容积(ESV)相对于舒张期容积(EDV)增加。这表明左心室的收缩能力下降,导致泵血效率降低。
- 吸烟和饮酒史:长期吸烟和大量饮酒会增加心血管疾病的风险,包括心力衰竭、冠状动脉疾病和心肌病。
初步诊断:
基于CT图像和测量参数,患者可能患有心力衰竭,可能有多种原因。需要进一步考虑其他因素以准确诊断。
建议:为确定这一状况的确切原因,需进行以下检查:
- 心电图(ECG):评估心律、心脏电传导及心律异常。
- 心脏超声(Echocardiogram):详细评估心脏瓣膜功能、心室壁厚度及左心室收缩能力。
- 血液检查:评估肾功能、肝功能及炎症指标。还需检测心脏功能