图像转文本

# 图像转文本

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged GGUF

这是一个基于Qari-OCR-0.3-SNAPSHOT-VL-2B-Instruct-merged模型的静态量化版本，主要用于图像到文本的转换任务。

图像生成文本

Transformers 英语

Florence Base Mixed Line Bbox Ocr

基于Microsoft Florence-2基础模型微调的图像转文本模型，支持瑞典语和英语，专注于历史手写文本识别和光学字符识别。

图像生成文本

Mixtex Finetune

MixTex base_ZhEn 是一个支持中文和英语的图像转文本模型，基于MIT许可证发布。

图像生成文本支持多种语言

Vit Gpt2 Image Captioning

这是一个基于ViT和GPT2架构的图像描述生成模型，能够为输入的图像生成自然语言描述。

图像生成文本

Sarashina2 Vision 8b

Sarashina2-Vision-8B是由SB Intuitions训练的日本大型视觉语言模型，基于Sarashina2-7B和Qwen2-VL-7B的图像编码器，在多个基准测试中表现优异。

图像生成文本

Transformers 支持多种语言

Bpe Vocab N OCR

Bpe-vocab-n-OCR 是一款基于OCR的高级文本提取工具，专为生成结构化、分词的输出而优化。

图像生成文本

Transformers 支持多种语言

Thai Handwriting Llm

基于Llama-3.2-11B-Vision-Instruct的LoRA适配视觉语言模型，可从图像中转录泰语手写文本。

图像生成文本

Safetensors 其他

Sdxl Aam Xl Anime Mix

基于Stable Diffusion XL的动漫风格图像生成模型，支持图像到文本的转换

BLIP Radiology Model

基于transformers库的图像转文本模型，支持将图像内容转换为描述性文本。

图像生成文本

基于TrOCR架构的天城文光学字符识别模型，专门针对尼泊尔语/天城文字符进行微调

Transformers 其他

Trocr Math Handwritten

TrOCR是一个基于Transformer的OCR模型，专门用于识别手写数学公式

图像生成文本

Florence 2 Large

Florence-2是微软开发的先进视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉语言任务。

图像生成文本

Florence 2 Large

Florence-2是微软开发的先进视觉基础模型，采用基于提示的方法处理广泛的视觉和视觉语言任务。

图像生成文本

lodestone-horizon

Donut 是一个基于 Transformer 的图像转文本模型，能够从图像中提取和生成文本内容。

图像生成文本

Trocr German Handwritten

这是一个基于Transformer的OCR模型，专门用于识别德语手写文本。

Transformers 德语

Paligemma 3b Mix 448 Ft TableDetection

基于google/paligemma-3b-mix-448微调的多模态表格检测模型，专用于识别图像中的表格区域

图像生成文本

天秤座是一个基于大语言模型构建的解耦视觉系统，具备基础多模态理解能力。

图像生成文本

OCR TextInput Base

一个专注于金融领域的图像转文本模型，支持英文文本识别，主要用于处理金融文档中的图像内容。

Transformers 英语

Llava Phi 3 Mini Gguf

LLaVA-Phi-3-mini 是基于 Phi-3-mini-4k-instruct 和 CLIP-ViT-Large-patch14-336 微调的 LLaVA 模型，专注于图像转文本任务。

图像生成文本

Trocr Base Finetune Numbers

TrOCR 是一个基于Transformer的光学字符识别模型，用于从图像中提取文本内容。

图像生成文本

Transformers 英语

InfiMM-HD是一个高分辨率多模态模型，能够理解和生成结合图像和文本的内容。

图像生成文本

Transformers 英语

该模型是微软TrOCR印刷体模型的微调版本，专门用于僧伽罗文的OCR识别任务。

Transformers 其他

基于Hugging Face Transformers的光学字符识别模型，专门用于识别MNIST风格的数字图像

Transformers 英语

Trocr Base Printed Captcha Ocr

基于微软trocr-base-printed模型微调的验证码识别模型，专门用于处理印刷体文本的OCR任务

Image Caption Using ViT GPT2

这是一个基于Vision Transformer(ViT)和GPT2架构的图像描述生成模型，能够为输入图像生成自然语言描述。

图像生成文本

Donut Finetune Rvl Cdip

基于Donut框架的文档分类模型，在RVL-CDIP小规模数据集上训练

图像生成文本

Transformers 英语

Trocr Base Fa V2

这是一个基于Transformer的OCR模型，专门用于识别波斯语文本图像。

文字识别其他

Git Base Next Refined

基于microsoft/git-base微调的图像转文本模型

大型语言模型

Transformers 其他

专注于日本漫画的日语文本光学字符识别模型

Transformers 日语

Vit Gpt2 Verifycode Caption

基于60000张图片训练集微调的Vit-GPT2架构验证码识别模型，能够准确识别图像中的验证码文本。

图像生成文本

Blip Base Captioning Ft Hl Scenes

该模型是基于BLIP架构的图像描述生成模型，专门针对场景高层描述进行了微调。

图像生成文本

Transformers 英语

michelecafagna26

Pix2struct Refexp Base

Pix2Struct是一个图像编码器-文本解码器模型，针对多种视觉语言任务进行训练，包括图像描述和视觉问答。

图像生成文本

Transformers 支持多种语言

Trocr Small Korean

TrOCR是一个基于视觉编码器-解码器架构的韩语图像转文本模型，使用DeiT作为图像编码器，RoBERTa作为文本解码器。

图像生成文本韩语

基于微软GIT框架的多模态模型，专注于从学生作业图像中提取文本并生成教师反馈

图像生成文本

Transformers 支持多种语言

Donut Base Sroie

基于naver-clova-ix/donut-base在图像文件夹数据集上微调的模型，具体用途未明确说明

Donut Base Finetuned SOGC Archive Trademarks 1883 2001

一个用于识别和解析历史商标文档的多语言图像转文本模型，支持德语、意大利语和法语。

图像生成文本

Transformers 支持多种语言

一个用于希伯来语图像转文本的OCR模型，能够识别图像中的希伯来语文字。

Transformers 其他

Mangaocr Hoogberta V2

一个基于TrOCR架构的日文漫画文本识别模型，专门用于从漫画图像中提取文本内容。

图像生成文本

基于图像文件夹数据集训练的OCR模型，用于PDF文档的文本识别

Trocr Base Handwritten OCR Handwriting Recognition V2

基于微软trocr-base-handwritten微调的手写体OCR模型，在评估集上字符错误率(CER)为0.0360

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24