OCR增强

# OCR增强

Wr30a Deep 7B 0711 GGUF

这是 prithivMLmods/WR30a-Deep-7B-0711 模型的静态量化版本，支持多种自然语言处理和视觉理解任务。

图像生成文本

Transformers 支持多种语言

专注于将图像内容转化为文本信息的模型，具有广泛的应用价值。

图像生成文本

TensorBoard 其他

Webssl Mae700m Full2b 224

这是一个7亿参数的视觉Transformer模型，采用掩码自编码器自监督学习方法在20亿网络图像上训练，无需语言监督。

Aya Vision 8B是一个开放权重的80亿参数多语言视觉语言模型，支持23种语言的视觉和语言任务。

图像生成文本

Transformers 支持多种语言

Turkish LLaVA V0.1

一个专为多模态视觉指令跟随任务设计的土耳其语视觉语言模型，能够同时处理视觉（图像）和文本输入，理解并执行土耳其语提供的指令。

图像生成文本

Safetensors 其他

Vit Intern300m Patch14 448.ogvl Dist

InternViT-300M是一个由OpenGVLab团队开发的视觉Transformer模型，通过从InternViT-6B蒸馏预训练而来，支持多种视觉任务。

Idefics3 8B Llama3

Idefics3是一个开源的多模态模型，能够处理任意序列的图像和文本输入并生成文本输出。它在OCR、文档理解和视觉推理方面有显著提升。

图像生成文本

Transformers 英语

Florence 2 Large

Florence-2是微软推出的先进视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉语言任务。

文本生成图像

Internvit 300M 448px

InternViT-300M-448px是一个高效的视觉基础模型，通过从InternViT-6B-448px-V1-5蒸馏知识开发而来，具备448×448的动态输入分辨率，支持1至40个图块处理。

文本生成图像

Idefics2 8b Chatty

Idefics2 是一个开放的多模态模型，能够接受任意序列的图像和文本输入并生成文本输出。该模型可以回答关于图像的问题、描述视觉内容、基于多张图像创作故事，或仅作为纯语言模型使用。

图像生成文本

Transformers 英语

Internvit 6B 448px V1 5

InternViT-6B-448px-V1-5是基于InternViT-6B-448px-V1-2微调的视觉基础模型，具备强大的鲁棒性、OCR能力及高分辨率处理能力。

文本生成图像

Pix2text Table Rec

基于微软Table Transformer开发的表格结构识别模型，用于文档中的表格检测与识别任务

Donut Base Handwriting Recognition

基于naver-clova-ix/donut-base微调的手写识别模型

Internvit 6B 448px V1 2

InternViT-6B-448px-V1-2是一个视觉基础模型，特征骨干，具有5540万参数，支持448x448像素的图像处理。

文本生成图像

Sampel2 Docqa Layoutlmv3 Base

基于microsoft/layoutlmv2-base-uncased微调的文档问答模型，具体训练数据集未知

Cogagent Vqa Hf

CogAgent是基于CogVLM改进的开源视觉语言模型，专注于单轮视觉问答任务

文本生成图像

Transformers 英语

Cogagent Chat Hf

CogAgent是基于CogVLM改进的开源视觉语言模型，具备GUI智能体、视觉多轮对话和视觉定位等能力。

文本生成图像

Transformers 英语

Testdocumentquestionanswering

基于LayoutLMv2架构的文档视觉问答模型，针对DocVQA任务进行微调

图像生成文本

该模型是基于microsoft/layoutlmv2-base-uncased在generator数据集上微调的版本，适用于文档理解和布局分析任务。

大型语言模型

Donut Receipt V3

基于naver-clova-ix/donut-base微调的模型，具体用途未明确说明

大型语言模型

Layoutlmv2 Base Uncased Finetuned Docvqa

基于LayoutLMv2架构的文档视觉问答模型，专为文档理解任务微调

文本生成图像

Layoutlmv2 Base Uncased Finetuned Docvqa

基于LayoutLMv2架构的文档视觉问答模型，专门针对文档理解任务进行微调

图像生成文本

Donut Base Sroie

基于naver-clova-ix/donut-base微调的文档理解模型，专注于结构化文档信息提取任务

基于naver-clova-ix/donut-base微调的文档理解模型，适用于图像文件夹数据集

Layoutlmv2 Base Uncased Finetuned Docvqa V2

该模型是基于microsoft/layoutlmv2-base-uncased在文档视觉问答任务上微调的版本，专注于处理文档图像中的文本和布局信息。

图像生成文本

Donut Base Sroie

基于naver-clova-ix/donut-base在图像文件夹数据集上微调的模型，适用于文档理解任务

Donut Base Sroie

该模型是基于naver-clova-ix/donut-base在图像文件夹数据集上微调的版本，适用于文档理解任务。

Donut Base Payslips

基于Donut架构的文档理解模型，专门针对工资单图像处理进行微调

Donut Base Medical Handwritten Blocks Data Extraction

基于Donut架构的模型，专门用于从医疗手写文档中提取结构化数据

Donut Base Sroie

基于naver-clova-ix/donut-base微调的文档理解模型，适用于图像文本提取任务

该模型是一个基于MIT许可证的开源模型，CER（字符错误率）为0.0019，表明其在特定任务上具有较高的准确性。

大型语言模型

Layoutlm Finetuned Funsd

这是一个在FUNSD数据集上微调的LayoutLM模型，专门用于文档/表单的标记分类任务。

Layoutlmv2 Base Uncased Finetuned Docvqa

基于LayoutLMv2架构的文档视觉问答模型，针对文档理解任务进行了微调

文本生成图像

Layoutlmv2 Large Uncased Finetuned Infovqa

基于LayoutLMv2架构的文档理解模型，针对InfoVQA任务进行微调

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24