多语言OCR

# 多语言OCR

Perseus Doc Vl 071225 I1 GGUF

Perseus-Doc-vl-0712 是一个支持英文和中文的视觉语言模型，适用于文本生成推理、图像字幕生成和光学字符识别等多种任务。

图像生成文本

Transformers 支持多种语言

Perseus Doc Vl 071225 GGUF

Perseus-Doc-vl-0712量化模型是一个支持文本生成推理、图像字幕生成、光学字符识别等多领域应用的视觉与语言理解模型，基于transformers库构建。

图像生成文本

Transformers 支持多种语言

PP OCRv4 Mobile Det

PP-OCRv4_mobile_det 是由 PaddleOCR 团队开发的针对移动设备优化的高效文本检测模型，适合边缘设备部署。

文字识别支持多种语言

PP OCRv5 Mobile Rec

PP-OCRv5_mobile_rec 是 PaddleOCR 团队开发的最新一代文本行识别模型，支持简体中文、繁体中文、英文和日文四种语言的识别，适用于多种复杂文本场景。

文字识别支持多种语言

PP OCRv5 Server Rec

PP-OCRv5_server_rec 是 PaddleOCR 团队开发的最新一代文本行识别模型，支持多语言和复杂文本场景的识别。

文字识别支持多种语言

Florence Base Mixed Line Bbox Ocr

基于Microsoft Florence-2基础模型微调的图像转文本模型，支持瑞典语和英语，专注于历史手写文本识别和光学字符识别。

图像生成文本

Mistral Small 1

基于Mistral-Small-3.1-24B-Instruct-2503构建的图像文本转文本模型，支持多语言处理

图像生成文本

Safetensors 支持多种语言

CreitinGameplays

Internvl3 2B AWQ

InternVL3-2B是OpenGVLab推出的先进多模态大语言模型（MLLM），具备卓越的多模态感知和推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等。

图像文本到文本

Transformers 其他

MiniCPM-V 2.6是一款强大的多模态大语言模型，能够在手机等设备上高效运行，支持单图像、多图像和视频理解任务。

文本生成图像

Transformers 其他

Paligemma2 3b Mix 224 Jax

PaliGemma 2是基于Gemma 2的升级版视觉语言模型，支持多语言图文输入与文本输出，专为视觉语言任务设计

文本生成图像

Minicpm O 2 6 Int4

MiniCPM-o 2.6的int4量化版本，显著降低GPU显存占用，支持多模态处理能力。

文本生成音频

Transformers 其他

Paligemma2 28b Mix 224

PaliGemma 2是Google推出的升级版视觉语言模型，结合Gemma 2和SigLIP视觉模型能力，支持多语言图像文本交互任务。

图像生成文本

Paligemma2 28b Mix 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像+文本输入，输出文本响应，适用于多种视觉语言任务。

图像生成文本

Paligemma2 10b Mix 224

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Paligemma2 3b Mix 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像与文本输入，输出生成文本，适用于多种视觉语言任务。

图像生成文本

基于TrOCR架构的天城文光学字符识别模型，专门针对尼泊尔语/天城文字符进行微调

Transformers 其他

基于TrOCR基础手写体模型微调而成的泰语和英语光学字符识别模型，擅长处理手写文本行图像

Transformers 支持多种语言

该模型是针对乌尔都语OCR任务专门训练的，最适合处理单行乌尔都语文本图像，主要专注于印刷体文本。

Transformers 其他

Trocr Medieval Cursiva

这是一个基于TrOCR的中世纪草书体识别模型，专门用于识别拉丁语、法语、意大利语、西班牙语和加泰罗尼亚语的中世纪手写文本。

Transformers 支持多种语言

TrOCR-Ru是基于microsoft/trocr-base-handwritten在俄语和英语合成数据集上微调的光学字符识别模型，专注于图像转文本任务。

Transformers 支持多种语言

Trocr Base Finetune Numbers

TrOCR 是一个基于Transformer的光学字符识别模型，用于从图像中提取文本内容。

图像生成文本

Transformers 英语

一个基于Transformer架构的OCR系统，专门用于识别中部库尔德语文本，使用合成数据进行训练。

Pix2struct Ocrvqa Base

Pix2Struct是基于OCR-VQA任务微调的视觉问答模型，能够解析图像中的文本内容并回答问题

图像生成文本

Transformers 支持多种语言

Pix2struct Docvqa Base

Pix2Struct是一个图像编码器-文本解码器模型，通过图像-文本对训练，支持多种任务，包括图像描述生成和视觉问答。

图像生成文本

Transformers 支持多种语言

Pix2struct Chartqa Base

Pix2Struct是一种图像编码器-文本解码器模型，通过图像-文本配对数据进行多任务训练，专门针对图表问答任务进行微调

文本生成图像

Transformers 支持多种语言

Donut Base Finetuned Latvian Receipts

该模型是基于donut-base在拉脱维亚收据数据集上微调的版本，主要用于收据图像处理任务

Doctr Torch Crnn Mobilenet V3 Large French

基于TensorFlow 2和PyTorch的光学字符识别(OCR)模型，支持多语言文本检测与识别

Transformers 支持多种语言

Doctr Tf Crnn Vgg16 Bn French

基于 TensorFlow 2 和 PyTorch 的光学字符识别技术，支持多语言文档识别

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24