Florence Base Mixed Line Bbox Ocr
MIT
基于Microsoft Florence-2基础模型微调的图像转文本模型,支持瑞典语和英语,专注于历史手写文本识别和光学字符识别。
图像生成文本
Safetensors
F
nazounoryuu
112
0
Internvl3 2B AWQ
其他
InternVL3-2B是OpenGVLab推出的先进多模态大语言模型(MLLM),具备卓越的多模态感知和推理能力,支持工具使用、GUI代理、工业图像分析、3D视觉感知等。
图像文本到文本
Transformers

其他
I
OpenGVLab
677
1
Paligemma2 3b Mix 224 Jax
PaliGemma 2是基于Gemma 2的升级版视觉语言模型,支持多语言图文输入与文本输出,专为视觉语言任务设计
文本生成图像
P
google
38
1
Minicpm O 2 6 Int4
MiniCPM-o 2.6的int4量化版本,显著降低GPU显存占用,支持多模态处理能力。
文本生成音频
Transformers

其他
M
openbmb
4,249
42
Paligemma2 28b Mix 224
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型能力,支持多语言图像文本交互任务。
图像生成文本
Transformers

P
google
2,050
4
Paligemma2 28b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像+文本输入,输出文本响应,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
198
26
Paligemma2 10b Mix 224
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
701
7
Paligemma2 3b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像与文本输入,输出生成文本,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
20.55k
44
Trocr Nepali
基于TrOCR架构的天城文光学字符识别模型,专门针对尼泊尔语/天城文字符进行微调
文字识别
Transformers

其他
T
syubraj
175
0
Thai Trocr
Apache-2.0
基于TrOCR基础手写体模型微调而成的泰语和英语光学字符识别模型,擅长处理手写文本行图像
文字识别
Transformers

支持多种语言
T
openthaigpt
2,677
9
Urdu Ocr
该模型是针对乌尔都语OCR任务专门训练的,最适合处理单行乌尔都语文本图像,主要专注于印刷体文本。
文字识别
Transformers

其他
U
cxfajar197
114
1
Trocr Medieval Cursiva
MIT
这是一个基于TrOCR的中世纪草书体识别模型,专门用于识别拉丁语、法语、意大利语、西班牙语和加泰罗尼亚语的中世纪手写文本。
文字识别
Transformers

支持多种语言
T
medieval-data
18
1
Trocr Base Ru
Apache-2.0
TrOCR-Ru是基于microsoft/trocr-base-handwritten在俄语和英语合成数据集上微调的光学字符识别模型,专注于图像转文本任务。
文字识别
Transformers

支持多种语言
T
sherstpasha99
30
0
Trocr Base Finetune Numbers
TrOCR 是一个基于Transformer的光学字符识别模型,用于从图像中提取文本内容。
图像生成文本
Transformers

英语
T
ANANDHU-SCT
23
0
Trocr Base Ckb
一个基于Transformer架构的OCR系统,专门用于识别中部库尔德语文本,使用合成数据进行训练。
文字识别
Transformers

T
razhan
19
0
Pix2struct Ocrvqa Base
Apache-2.0
Pix2Struct是基于OCR-VQA任务微调的视觉问答模型,能够解析图像中的文本内容并回答问题
图像生成文本
Transformers

支持多种语言
P
google
38
1
Pix2struct Docvqa Base
Apache-2.0
Pix2Struct是一个图像编码器-文本解码器模型,通过图像-文本对训练,支持多种任务,包括图像描述生成和视觉问答。
图像生成文本
Transformers

支持多种语言
P
google
8,601
37
Pix2struct Chartqa Base
Apache-2.0
Pix2Struct是一种图像编码器-文本解码器模型,通过图像-文本配对数据进行多任务训练,专门针对图表问答任务进行微调
文本生成图像
Transformers

支持多种语言
P
google
181
8
Donut Base Finetuned Latvian Receipts
MIT
该模型是基于donut-base在拉脱维亚收据数据集上微调的版本,主要用于收据图像处理任务
文字识别
Transformers

D
Inesence
31
0
Doctr Torch Crnn Mobilenet V3 Large French
基于TensorFlow 2和PyTorch的光学字符识别(OCR)模型,支持多语言文本检测与识别
文字识别
Transformers

支持多种语言
D
Felix92
33
3
Doctr Tf Crnn Vgg16 Bn French
基于 TensorFlow 2 和 PyTorch 的光学字符识别技术,支持多语言文档识别
文字识别
Transformers

支持多种语言
D
Felix92
16
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文