文档图像理解

# 文档图像理解

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-Instruct的FP8量化版本，支持视觉-文本输入和文本输出，由Neural Magic优化发布。

图像生成文本

Transformers 英语

Olmocr 7B 0225 Preview

基于Qwen2-VL-7B-Instruct微调的文档OCR模型，支持多语言文档识别与元数据提取

Transformers 英语

Qwen2.5 VL 3B Instruct Quantized.w4a16

Qwen2.5-VL-3B-Instruct的量化版本，权重量化为INT4，激活量化为FP16，适用于视觉-文本任务的高效推理。

文本生成图像

Transformers 英语

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-Instruct的FP8量化版本，支持视觉-文本输入和文本输出，适用于多模态任务。

文本生成图像

Transformers 英语

Eagle2是一个高性能的视觉语言模型系列，专注于通过数据策略和训练方法的优化来提升模型性能。Eagle2-9B是该系列中的大型模型，在性能和推理速度之间取得了良好平衡。

文本生成图像

Transformers 其他

KnutJaegersberg

鹰隼2号是一个高性能视觉语言模型家族，专注于数据策略和训练方案的透明性，旨在推动开源社区开发具有竞争力的视觉语言模型。

图像生成文本

Transformers 其他

Paligemma2 10b Ft Docci 448

PaliGemma 2是Google推出的多功能视觉语言模型(VLM)，结合图像和文本处理能力，支持多语言和多任务处理。

图像生成文本

Florence 2 DocVQA

基于微软Florence-2模型使用Docmatix数据集（5%数据量）微调1天的版本，适用于图像文本理解任务

文本生成图像

Paligemma Rich Captions

基于PaliGemma-3b模型在DocCI数据集上微调的图像描述生成模型，能生成200-350字符的详细描述文本，减少幻觉现象

图像生成文本

Transformers 英语

Paligemma 3b Ft Docvqa 896

PaliGemma是Google开发的轻量级视觉语言模型，基于SigLIP视觉模型和Gemma语言模型构建，支持多语言图像文本理解与生成。

图像生成文本

Uae License Detection

Donut是一种无需OCR的文档理解Transformer模型，结合视觉编码器和文本解码器处理文档图像

图像生成文本

Donut Base Medical Handwritten Prescriptions Information Extraction Final

基于Donut架构的医疗手写处方信息提取模型，用于从医疗处方图像中提取结构化信息

图像生成文本

基于naver-clova-ix/donut-base微调的模型，具体用途和功能需要更多信息

图像生成文本

Donut Base Sroie

基于naver-clova-ix/donut-base微调的文档理解模型，专注于结构化文档信息提取任务

基于naver-clova-ix/donut-base微调的文档理解模型，适用于图像文件夹数据集

Donut Base Finetuned Latvian Receipts V2

基于Donut架构的模型，专门针对拉脱维亚收据数据进行了微调

Donut Base Finetuned Latvian Receipts

该模型是基于donut-base在拉脱维亚收据数据集上微调的版本，主要用于收据图像处理任务

Donut Base Sroie

基于naver-clova-ix/donut-base在图像文件夹数据集上微调的模型，适用于文档理解任务

Donut Base Sroie Fine Tuned

基于naver-clova-ix/donut-base模型在图像文件夹数据集上微调的版本，适用于文档理解任务。

Donut Base Payslips

基于Donut架构的文档理解模型，专门针对工资单图像处理进行微调

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24