Webssl Mae700m Full2b 224
这是一个7亿参数的视觉Transformer模型,采用掩码自编码器自监督学习方法在20亿网络图像上训练,无需语言监督。
图像分类
Transformers

W
facebook
15
0
Aya Vision 8b
Aya Vision 8B是一个开放权重的80亿参数多语言视觉语言模型,支持23种语言的视觉和语言任务。
图像生成文本
Transformers

支持多种语言
A
CohereLabs
29.94k
282
Turkish LLaVA V0.1
MIT
一个专为多模态视觉指令跟随任务设计的土耳其语视觉语言模型,能够同时处理视觉(图像)和文本输入,理解并执行土耳其语提供的指令。
图像生成文本
Safetensors
其他
T
ytu-ce-cosmos
86
10
Vit Intern300m Patch14 448.ogvl Dist
MIT
InternViT-300M是一个由OpenGVLab团队开发的视觉Transformer模型,通过从InternViT-6B蒸馏预训练而来,支持多种视觉任务。
图像分类
Transformers

V
timm
147
0
Idefics3 8B Llama3
Apache-2.0
Idefics3是一个开源的多模态模型,能够处理任意序列的图像和文本输入并生成文本输出。
图像生成文本
Transformers

英语
I
HuggingFaceM4
45.86k
277
Florence 2 Large
MIT
Florence-2是微软推出的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
文本生成图像
Transformers

F
microsoft
579.23k
1,530
Internvit 300M 448px
MIT
InternViT-300M-448px是一个高效的视觉基础模型,通过从InternViT-6B-448px-V1-5蒸馏知识开发而来,具备448×448的动态输入分辨率,支持1至40个图块处理。
文本生成图像
Transformers

I
OpenGVLab
7,506
57
Idefics2 8b Chatty
Apache-2.0
Idefics2 是一个开放的多模态模型,能够接受任意序列的图像和文本输入并生成文本输出。
图像生成文本
Transformers

英语
I
HuggingFaceM4
617
94
Internvit 6B 448px V1 5
MIT
InternViT-6B-448px-V1-5是基于InternViT-6B-448px-V1-2微调的视觉基础模型,具备强大的鲁棒性、OCR能力及高分辨率处理能力。
文本生成图像
Transformers

I
OpenGVLab
155
79
Pix2text Table Rec
MIT
基于微软Table Transformer开发的表格结构识别模型,用于文档中的表格检测与识别任务
文字识别
Transformers

P
breezedeus
1,124
2
Donut Base Handwriting Recognition
MIT
基于naver-clova-ix/donut-base微调的手写识别模型
文字识别
Transformers

D
Cdywalst
140
1
Internvit 6B 448px V1 2
MIT
InternViT-6B-448px-V1-2是一个视觉基础模型,特征骨干,具有5540万参数,支持448x448像素的图像处理。
文本生成图像
Transformers

I
OpenGVLab
19
27
Sampel2 Docqa Layoutlmv3 Base
基于microsoft/layoutlmv2-base-uncased微调的文档问答模型,具体训练数据集未知
问答系统
Transformers

S
Tejagoud
10
0
Cogagent Vqa Hf
Apache-2.0
CogAgent是基于CogVLM改进的开源视觉语言模型,专注于单轮视觉问答任务
文本生成图像
Transformers

英语
C
THUDM
238
49
Cogagent Chat Hf
Apache-2.0
CogAgent是基于CogVLM改进的开源视觉语言模型,具备GUI智能体、视觉多轮对话和视觉定位等能力。
文本生成图像
Transformers

英语
C
THUDM
503
69
Testdocumentquestionanswering
基于LayoutLMv2架构的文档视觉问答模型,针对DocVQA任务进行微调
图像生成文本
Transformers

T
Dhineshk
16
0
Trained Model
该模型是基于microsoft/layoutlmv2-base-uncased在generator数据集上微调的版本,适用于文档理解和布局分析任务。
大型语言模型
Transformers

T
vfu
14
0
Donut Receipt V3
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途未明确说明
大型语言模型
Transformers

D
mychen76
28
0
Layoutlmv2 Base Uncased Finetuned Docvqa
基于LayoutLMv2架构的文档视觉问答模型,专为文档理解任务微调
文本生成图像
Transformers

L
madiltalay
14
0
Layoutlmv2 Base Uncased Finetuned Docvqa
基于LayoutLMv2架构的文档视觉问答模型,专门针对文档理解任务进行微调
图像生成文本
Transformers

L
hugginglaoda
16
0
Donut Base Sroie
MIT
基于naver-clova-ix/donut-base微调的文档理解模型,专注于结构化文档信息提取任务
文字识别
Transformers

D
enoreyes
15
0
Donut Base Bol
MIT
基于naver-clova-ix/donut-base微调的文档理解模型,适用于图像文件夹数据集
文字识别
Transformers

D
prakriti42
13
0
Layoutlmv2 Base Uncased Finetuned Docvqa V2
该模型是基于microsoft/layoutlmv2-base-uncased在文档视觉问答任务上微调的版本,专注于处理文档图像中的文本和布局信息。
图像生成文本
Transformers

L
MariaK
54
3
Donut Base Sroie
MIT
基于naver-clova-ix/donut-base在图像文件夹数据集上微调的模型,适用于文档理解任务
文字识别
Transformers

D
zahra000
16
0
Donut Base Sroie
MIT
该模型是基于naver-clova-ix/donut-base在图像文件夹数据集上微调的版本,适用于文档理解任务。
文字识别
Transformers

D
unstructuredio
31
1
Donut Base Payslips
MIT
基于Donut架构的文档理解模型,专门针对工资单图像处理进行微调
文字识别
Transformers

D
Assadullah
20
0
Donut Base Medical Handwritten Blocks Data Extraction
MIT
基于Donut架构的模型,专门用于从医疗手写文档中提取结构化数据
文字识别
Transformers

D
mjawadazad2321
15
1
Donut Base Sroie
MIT
基于naver-clova-ix/donut-base微调的文档理解模型,适用于图像文本提取任务
文字识别
Transformers

D
philschmid
185
3
Trocr Captcha
MIT
该模型是一个基于MIT许可证的开源模型,CER(字符错误率)为0.0019,表明其在特定任务上具有较高的准确性。
大型语言模型
Transformers

T
tomofi
37
5
Layoutlm Finetuned Funsd
这是一个在FUNSD数据集上微调的LayoutLM模型,专门用于文档/表单的标记分类任务。
文字识别
Transformers

L
mrm8488
97
2
Layoutlmv2 Base Uncased Finetuned Docvqa
基于LayoutLMv2架构的文档视觉问答模型,针对文档理解任务进行了微调
文本生成图像
Transformers

L
tiennvcs
983
14
Layoutlmv2 Large Uncased Finetuned Infovqa
基于LayoutLMv2架构的文档理解模型,针对InfoVQA任务进行微调
问答系统
Transformers

L
tiennvcs
16
2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文