高精度OCR

# 高精度OCR

En PP OCRv4 Mobile Rec

PaddleOCR团队开发的超轻量级英文文本行识别模型，支持英文和数字字符识别

文字识别支持多种语言

SLANeXt_wired 是一个用于表格结构识别的深度学习模型，能够将不可编辑的表格图像转换为可编辑的表格格式（如 HTML）。

文字识别支持多种语言

PP OCRv5 Server Det

PP-OCRv5_server_det 是 PaddleOCR 团队研发的最新一代文本检测模型，专为高性能应用场景设计，支持检测多种场景下的文本，包括手写、竖排、旋转和弯曲文本，可识别多种语言。

文字识别支持多种语言

Llama 3.1 Nemotron Nano VL 8B V1

Llama-3.1-Nemotron-Nano-VL-8B-V1是一款先进的文档智能视觉语言模型，能够对图像和视频进行查询与总结，支持多环境部署。

图像生成文本

Qwen2.5-VL-32B-Instruct是Qwen家族的最新视觉语言模型，具备强大的视觉理解和智能代理能力，支持多模态任务处理。

图像生成文本

Transformers 支持多种语言

Qwen2.5 VL 32B Instruct Exl2 4 25bpw

Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新视觉语言模型，具备强大的多模态理解和生成能力，支持图像、视频和文本的交互。

文本生成图像

Transformers 英语

christopherthompson81

Sapnous-6B是一款先进的视觉语言模型，通过强大的多模态能力提升对世界的感知和理解。

图像生成文本

Transformers 英语

Aya Vision 32B是Cohere实验室开发的开放权重32B参数多模态模型，支持23种语言的视觉语言任务。

图像生成文本

Transformers 支持多种语言

Qwen2.5 VL 72B Instruct AWQ

Qwen2.5-VL是通义千问团队推出的多模态大语言模型，具备强大的视觉理解和智能代理能力，支持图像、视频、文本等多种输入格式。

文本生成图像

Transformers 英语

Typhoon2 Qwen2vl 7b Vision Instruct

Typhoon2-Vision 是一款支持泰语的视觉语言模型，能够处理图像和视频输入，特别针对基于图像的应用进行了优化。

文本生成图像

Transformers 支持多种语言

Paligemma2 3b Mix 224

PaliGemma 2是Google开发的升级版视觉语言模型，结合了Gemma 2的能力，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

TF-ID是一系列目标检测模型，专门用于提取学术论文中的表格和图表及其标题文本。

图像生成文本

TF-ID是专门用于提取学术论文中表格和图表的视觉目标检测模型，基于Florence-2微调而成

Dolphin Vision 72b

DolphinVision 72b是一个多模态模型，能够对其他流行模型会拒绝处理的图像进行推理和评论。

图像生成文本

Pix2text Mfr Quantized

Pix2Text的数学公式识别(MFR)模型，基于TrOCR架构训练，可将数学公式图片转换为LaTeX文本表示。

Pix2Text的数学公式检测(MFD)模型，用于识别图片中的数学公式

文字识别其他

Sparrow是基于Donut ML基础模型在发票数据上微调的文档数据提取模型，旨在验证Donut在企业文档上的表现性能。

图像生成文本

Transformers 英语

Sparrow是基于Donut ML基础模型在发票数据上微调而成的文档数据提取工具，旨在验证Donut在企业文档上的表现性能。

图像生成文本

Transformers 英语

该模型是一个基于Apache-2.0许可证的图像转文本模型，能够将图像内容转换为文本描述。

OCR TextInput Base

一个专注于金融领域的图像转文本模型，支持英文文本识别，主要用于处理金融文档中的图像内容。

Transformers 英语

Output LayoutLMv3 V7

基于microsoft/layoutlmv3-base微调的文档理解模型，擅长处理文档布局分析任务

MiniCPM-V 2.0是面向高效终端部署的强大多模态大语言模型，基于SigLip-400M和MiniCPM-2.4B构建，通过感知器重采样器连接。

文本生成图像

Transformers 支持多种语言

Trocr Base Plate Number

一个用于识别车辆牌照的视觉模型，能够从图像中提取车牌号码。

MoAI是一个大型语言与视觉混合模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

Pix2Text的数学公式识别(MFR)模型，基于TrOCR架构训练，能够将数学公式图像转换为LaTeX文本表示。

Trocr Base Printed License Plates Ocr Timestamp

基于microsoft/trocr-base-printed微调的OCR模型，专门用于识别车牌和时间戳信息

Nougat For Formula

基于Nougat-small微调的数学公式识别模型，擅长从图像中提取LaTeX公式代码

图像生成文本

CORD-v2 是一个用于图像转文本任务的模型，主要用于从图像中提取和识别文本内容。

Finetune Donut Cord V2.5

这是一个基于Donut架构的视觉语言模型，专门针对CORD-V2数据集进行微调，用于文档图像转文本任务。

图像生成文本

该模型已过时，建议使用官方Nougat模型。Nougat是一种先进的视觉语言模型，专注于文档理解和分析。

图像生成文本

一款专用于转录e13b MICR码的OCR模型，基于微软的TrOCR-large-stage1微调而来。

Transformers 英语

Pix2struct Tiny Random

这是一个基于MIT许可证的图像转文本模型，能够将图像内容转换为描述性文本。

图像生成文本

General Image Captioning

这是一个基于Apache-2.0许可证的图像转文本模型，能够将图像内容转换为文本描述。

Transformers 其他

基于naver-clova-ix/donut-base微调的模型，具体用途和功能需要更多信息

图像生成文本

Layoutlmv3 Finetuned DocLayNet

基于LayoutLMv3架构微调的文档布局分析模型，专门用于处理DocLayNet数据集中的文档元素分类任务。

Transformers 英语

Invoices Donut Model V1

Sparrow是基于Donut ML基础模型在发票数据上微调的文档数据提取模型，旨在验证Donut在企业文档上的表现性能。

图像生成文本

Transformers 英语

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

这是一个基于MIT许可证的图像转文本模型，能够将图像内容转换为文本描述。

图像生成文本

这是一个基于CORD-v2数据集微调的Donut模型，专为图像转文本任务设计，平均准确率达到0.901。

图像生成文本

Layoutlmv3 Finetuned Funsd

基于microsoft/layoutlmv3-base在nielsr/funsd-layoutlmv3数据集上微调的文档理解模型

MGP-STR是一个纯视觉场景文本识别模型，通过多粒度预测实现高效OCR。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24