Space Model
Apache-2.0
Qwen2.5-VL-32B-Instruct是Qwen家族的最新视觉语言模型,具备强大的视觉理解和智能代理能力,支持多模态任务处理。
图像生成文本
Transformers

支持多种语言
S
Alhdrawi
58
1
Qwen2.5 VL 32B Instruct Exl2 4 25bpw
Apache-2.0
Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新视觉语言模型,具备强大的多模态理解和生成能力,支持图像、视频和文本的交互。
文本生成图像
Transformers

英语
Q
christopherthompson81
68
3
Sapnous VR 6B
Apache-2.0
Sapnous-6B是一款先进的视觉语言模型,通过强大的多模态能力提升对世界的感知和理解。
图像生成文本
Transformers

英语
S
Sapnous-AI
261
5
Aya Vision 32b
Aya Vision 32B是Cohere实验室开发的开放权重32B参数多模态模型,支持23种语言的视觉语言任务。
图像生成文本
Transformers

支持多种语言
A
CohereLabs
387
193
Qwen2.5 VL 72B Instruct AWQ
其他
Qwen2.5-VL是通义千问团队推出的多模态大语言模型,具备强大的视觉理解和智能代理能力,支持图像、视频、文本等多种输入格式。
文本生成图像
Transformers

英语
Q
Benasd
173
6
Typhoon2 Qwen2vl 7b Vision Instruct
Apache-2.0
Typhoon2-Vision 是一款支持泰语的视觉语言模型,能够处理图像和视频输入,特别针对基于图像的应用进行了优化。
文本生成图像
Transformers

支持多种语言
T
scb10x
793
11
Paligemma2 3b Mix 224
PaliGemma 2是Google开发的升级版视觉语言模型,结合了Gemma 2的能力,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
15.23k
28
TF ID Base
MIT
TF-ID是一系列目标检测模型,专门用于提取学术论文中的表格和图表及其标题文本。
图像生成文本
Transformers

T
yifeihu
408
36
TF ID Large
MIT
TF-ID是专门用于提取学术论文中表格和图表的视觉目标检测模型,基于Florence-2微调而成
目标检测
Transformers

T
yifeihu
9,893
21
Pix2text Mfr Quantized
MIT
Pix2Text的数学公式识别(MFR)模型,基于TrOCR架构训练,可将数学公式图片转换为LaTeX文本表示。
文字识别
Transformers

P
Brian314
37
0
Pix2text Mfd
MIT
Pix2Text的数学公式检测(MFD)模型,用于识别图片中的数学公式
文字识别
其他
P
breezedeus
1,369
3
Extract Matic
MIT
Sparrow是基于Donut ML基础模型在发票数据上微调的文档数据提取模型,旨在验证Donut在企业文档上的表现性能。
图像生成文本
Transformers

英语
E
ssraut
17
0
Extract Matic
MIT
Sparrow是基于Donut ML基础模型在发票数据上微调而成的文档数据提取工具,旨在验证Donut在企业文档上的表现性能。
图像生成文本
Transformers

英语
E
PCS
17
0
Final Model
Apache-2.0
该模型是一个基于Apache-2.0许可证的图像转文本模型,能够将图像内容转换为文本描述。
文字识别
Transformers

F
goatrider
17
0
OCR TextInput Base
一个专注于金融领域的图像转文本模型,支持英文文本识别,主要用于处理金融文档中的图像内容。
文字识别
Transformers

英语
O
rohit5895
31
0
Output LayoutLMv3 V7
基于microsoft/layoutlmv3-base微调的文档理解模型,擅长处理文档布局分析任务
文字识别
Transformers

O
Noureddinesa
18
1
Minicpm V 2
MiniCPM-V 2.0是面向高效终端部署的强大多模态大语言模型,基于SigLip-400M和MiniCPM-2.4B构建,通过感知器重采样器连接。
文本生成图像
Transformers

支持多种语言
M
openbmb
9,097
461
Trocr Base Plate Number
Apache-2.0
一个用于识别车辆牌照的视觉模型,能够从图像中提取车牌号码。
文字识别
Transformers

T
ristek-dsa
29
0
Moai 7B
MIT
MoAI是一个大型语言与视觉混合模型,能够处理图像和文本输入,生成文本输出。
图像生成文本
Transformers

M
BK-Lee
183
45
Pix2text Mfr
MIT
Pix2Text的数学公式识别(MFR)模型,基于TrOCR架构训练,能够将数学公式图像转换为LaTeX文本表示。
文字识别
Transformers

P
breezedeus
5,753
35
Trocr Base Printed License Plates Ocr Timestamp
基于microsoft/trocr-base-printed微调的OCR模型,专门用于识别车牌和时间戳信息
文字识别
Transformers

T
PQAshwin
132
1
Nougat For Formula
Apache-2.0
基于Nougat-small微调的数学公式识别模型,擅长从图像中提取LaTeX公式代码
图像生成文本
Transformers

N
CuiSiwei
40
5
Donut Demo
MIT
CORD-v2 是一个用于图像转文本任务的模型,主要用于从图像中提取和识别文本内容。
文字识别
Transformers

D
zhongren2
20
0
Finetune Donut Cord V2.5
Openrail
这是一个基于Donut架构的视觉语言模型,专门针对CORD-V2数据集进行微调,用于文档图像转文本任务。
图像生成文本
Transformers

F
fahmiaziz
97
3
Nougat
该模型已过时,建议使用官方Nougat模型。
图像生成文本
Transformers

N
nielsr
14
4
Trocr MICR
一款专用于转录e13b MICR码的OCR模型,基于微软的TrOCR-large-stage1微调而来。
文字识别
Transformers

英语
T
Apocalypse-19
94
1
Pix2struct Tiny Random
MIT
这是一个基于MIT许可证的图像转文本模型,能够将图像内容转换为描述性文本。
图像生成文本
Transformers

P
fxmarty
60.87k
2
General Image Captioning
Apache-2.0
这是一个基于Apache-2.0许可证的图像转文本模型,能够将图像内容转换为文本描述。
文字识别
Transformers

其他
G
alibidaran
30
0
Thesisdonut
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途和功能需要更多信息
图像生成文本
Transformers

T
Humayoun
13
0
Layoutlmv3 Finetuned DocLayNet
基于LayoutLMv3架构微调的文档布局分析模型,专门用于处理DocLayNet数据集中的文档元素分类任务。
文字识别
Transformers

英语
L
Mit1208
226
1
Invoices Donut Model V1
MIT
Sparrow是基于Donut ML基础模型在发票数据上微调的文档数据提取模型,旨在验证Donut在企业文档上的表现性能。
图像生成文本
Transformers

英语
I
katanaml-org
216
38
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
这是一个基于MIT许可证的图像转文本模型,能够将图像内容转换为文本描述。
图像生成文本
M
laion
21.02k
20
Donut Demo
MIT
这是一个基于CORD-v2数据集微调的Donut模型,专为图像转文本任务设计,平均准确率达到0.901。
图像生成文本
Transformers

D
katanaml
24
3
Layoutlmv3 Finetuned Funsd
基于microsoft/layoutlmv3-base在nielsr/funsd-layoutlmv3数据集上微调的文档理解模型
文字识别
Transformers

L
Narsil
799
0
Mgp Str Base
MGP-STR是一个纯视觉场景文本识别模型,通过多粒度预测实现高效OCR。
文字识别
Transformers

M
alibaba-damo
4,981
64
Dof Passport 1
MIT
基于naver-clova-ix/donut-base微调的模型,具体用途未明确说明
图像生成文本
Transformers

D
Sebabrata
16
0
OCR LayoutLMv3 Invoice
基于LayoutLMv3-base微调的发票识别模型,在wild_receipt数据集上训练,擅长从发票中提取结构化信息。
序列标注
Transformers

O
jinhybr
340
8
Trocr Large Str
TrOCR是一个基于Transformer的光学字符识别模型,专为单行文本图像设计,在多个标准数据集上进行了微调。
文字识别
Transformers

T
microsoft
571
17
Layoutlmv3 Finetuned Invoice
基于LayoutLMv3-base在SROIE数据集上微调的发票信息提取模型,在标记分类任务上表现优异
文字识别
Transformers

L
oussama
52
5
Layoutlmv3 Finetuned Wildreceipt
基于LayoutLMv3-base模型在WildReceipt收据数据集上微调的版本,用于收据关键信息提取任务
文字识别
Transformers

L
Theivaprakasham
118
3
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文