图像转文本
Florence Base Mixed Line Bbox Ocr
MIT
基于Microsoft Florence-2基础模型微调的图像转文本模型,支持瑞典语和英语,专注于历史手写文本识别和光学字符识别。
图像生成文本
Safetensors
F
nazounoryuu
112
0
Mixtex Finetune
MIT
MixTex base_ZhEn 是一个支持中文和英语的图像转文本模型,基于MIT许可证发布。
图像生成文本
支持多种语言
M
wzmmmm
27
0
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
图像生成文本
V
aryan083
31
0
Sarashina2 Vision 8b
MIT
Sarashina2-Vision-8B是由SB Intuitions训练的日本大型视觉语言模型,基于Sarashina2-7B和Qwen2-VL-7B的图像编码器,在多个基准测试中表现优异。
图像生成文本
Transformers
支持多种语言
S
sbintuitions
1,233
4
Bpe Vocab N OCR
Apache-2.0
Bpe-vocab-n-OCR 是一款基于OCR的高级文本提取工具,专为生成结构化、分词的输出而优化。
图像生成文本
Transformers
支持多种语言
B
prithivMLmods
76
4
Thai Handwriting Llm
Apache-2.0
基于Llama-3.2-11B-Vision-Instruct的LoRA适配视觉语言模型,可从图像中转录泰语手写文本。
图像生成文本
Safetensors
其他
T
Aekanun
9
6
Sdxl Aam Xl Anime Mix
其他
基于Stable Diffusion XL的动漫风格图像生成模型,支持图像到文本的转换
图像生成
S
zenless-lab
1,259
0
BLIP Radiology Model
基于transformers库的图像转文本模型,支持将图像内容转换为描述性文本。
图像生成文本
Transformers
B
motheecreator
152
0
Trocr Nepali
基于TrOCR架构的天城文光学字符识别模型,专门针对尼泊尔语/天城文字符进行微调
文字识别
Transformers
其他
T
syubraj
175
0
Trocr Math Handwritten
TrOCR是一个基于Transformer的OCR模型,专门用于识别手写数学公式
图像生成文本
Transformers
T
fhswf
290
6
Florence 2 Large
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
图像生成文本
Transformers
F
Binaryy
24
0
Florence 2 Large
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
图像生成文本
Transformers
F
lodestone-horizon
14
0
Horus OCR
Donut 是一个基于 Transformer 的图像转文本模型,能够从图像中提取和生成文本内容。
图像生成文本
Transformers
H
TeeA
21
0
Trocr German Handwritten
这是一个基于Transformer的OCR模型,专门用于识别德语手写文本。
文字识别
Transformers
德语
T
fhswf
841
7
Paligemma 3b Mix 448 Ft TableDetection
基于google/paligemma-3b-mix-448微调的多模态表格检测模型,专用于识别图像中的表格区域
图像生成文本
Transformers
P
ucsahin
19
4
Libra 11b Base
Apache-2.0
天秤座是一个基于大语言模型构建的解耦视觉系统,具备基础多模态理解能力。
图像生成文本
Transformers
L
YifanXu
18
0
OCR TextInput Base
一个专注于金融领域的图像转文本模型,支持英文文本识别,主要用于处理金融文档中的图像内容。
文字识别
Transformers
英语
O
rohit5895
31
0
Llava Phi 3 Mini Gguf
LLaVA-Phi-3-mini 是基于 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微调的 LLaVA 模型,专注于图像转文本任务。
图像生成文本
L
xtuner
1,676
133
Trocr Base Finetune Numbers
TrOCR 是一个基于Transformer的光学字符识别模型,用于从图像中提取文本内容。
图像生成文本
Transformers
英语
T
ANANDHU-SCT
23
0
Infimm Hd
InfiMM-HD是一个高分辨率多模态模型,能够理解和生成结合图像和文本的内容。
图像生成文本
Transformers
英语
I
Infi-MM
17
27
Trocr Sinhala
该模型是微软TrOCR印刷体模型的微调版本,专门用于僧伽罗文的OCR识别任务。
文字识别
Transformers
其他
T
Ransaka
66
1
Ocrmnist
Apache-2.0
基于Hugging Face Transformers的光学字符识别模型,专门用于识别MNIST风格的数字图像
文字识别
Transformers
英语
O
vanshp123
16
0
Trocr Base Printed Captcha Ocr
基于微软trocr-base-printed模型微调的验证码识别模型,专门用于处理印刷体文本的OCR任务
文字识别
Transformers
T
chanelcolgate
33
1
Image Caption Using ViT GPT2
Apache-2.0
这是一个基于Vision Transformer(ViT)和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers
I
Ayansk11
15
1
Donut Finetune Rvl Cdip
Apache-2.0
基于Donut框架的文档分类模型,在RVL-CDIP小规模数据集上训练
图像生成文本
Transformers
英语
D
sitloboi2012
18
0
Trocr Base Fa V2
这是一个基于Transformer的OCR模型,专门用于识别波斯语文本图像。
文字识别
其他
T
hezarai
64
3
Git Base Next Refined
MIT
基于microsoft/git-base微调的图像转文本模型
大型语言模型
Transformers
其他
G
swaroopajit
24
0
Manga Ocr Base
Apache-2.0
专注于日本漫画的日语文本光学字符识别模型
文字识别
Transformers
日语
M
TareHimself
96
1
Vit Gpt2 Verifycode Caption
Apache-2.0
基于60000张图片训练集微调的Vit-GPT2架构验证码识别模型,能够准确识别图像中的验证码文本。
图像生成文本
Transformers
V
AIris-Channel
28
1
Blip Base Captioning Ft Hl Scenes
Apache-2.0
该模型是基于BLIP架构的图像描述生成模型,专门针对场景高层描述进行了微调。
图像生成文本
Transformers
英语
B
michelecafagna26
13
0
Pix2struct Refexp Base
Apache-2.0
Pix2Struct是一个图像编码器-文本解码器模型,针对多种视觉语言任务进行训练,包括图像描述和视觉问答。
图像生成文本
Transformers
支持多种语言
P
gitlost-murali
20
0
Trocr Small Korean
Apache-2.0
TrOCR是一个基于视觉编码器-解码器架构的韩语图像转文本模型,使用DeiT作为图像编码器,RoBERTa作为文本解码器。
图像生成文本
韩语
T
team-lucid
342
17
Git 20
MIT
基于微软GIT框架的多模态模型,专注于从学生作业图像中提取文本并生成教师反馈
图像生成文本
Transformers
支持多种语言
G
uf-aice-lab
18
1
Donut Base Sroie
MIT
基于naver-clova-ix/donut-base在图像文件夹数据集上微调的模型,具体用途未明确说明
文字识别
Transformers
D
iamkhadke
13
0
Donut Base Finetuned SOGC Archive Trademarks 1883 2001
一个用于识别和解析历史商标文档的多语言图像转文本模型,支持德语、意大利语和法语。
图像生成文本
Transformers
支持多种语言
D
Travad98
24
0
Hdd Words Ocr
一个用于希伯来语图像转文本的OCR模型,能够识别图像中的希伯来语文字。
文字识别
Transformers
其他
H
sivan22
25
0
Mangaocr Hoogberta V2
一个基于TrOCR架构的日文漫画文本识别模型,专门用于从漫画图像中提取文本内容。
图像生成文本
Transformers
M
dsupa
39
0
Donut Pdf Ocr
基于图像文件夹数据集训练的OCR模型,用于PDF文档的文本识别
文字识别
Transformers
D
shubh1608
67
5
Trocr Base Handwritten OCR Handwriting Recognition V2
基于微软trocr-base-handwritten微调的手写体OCR模型,在评估集上字符错误率(CER)为0.0360
文字识别
Transformers
英语
T
DunnBC22
269
16
Trocr Processor
TrOCR是一种基于Transformer的光学字符识别模型,专为手写文本识别设计,在IAM手写数据库上进行了微调。
图像生成文本
Transformers
T
anaghasavit
18
3