finetuned-vit-image-text-classifier开源模型 - 精准识别图像文本及文本类型

首页

Finetuned Vit Image Text Classifier

由 ernie-ai 开发

基于ViT架构的图像分类模型，用于识别图像中是否包含文本及文本类型（拉丁字母、中文、阿拉伯文）

图像分类

Transformers

开源协议:Apache-2.0 #多语种文本识别 #文档图像分类 #高准确率ViT

下载量 45

发布时间 : 2/8/2023

模型简介

该模型是在google/vit-base-patch16-224-in21k基础上微调的图像分类器，专门用于文档文本分类任务，可识别图像中的文本类型（拉丁字母、中文、阿拉伯文）以及非文本图像。

模型特点

高准确率文本分类

在测试集上达到90.3%的准确率，能有效区分不同文字类型

基于ViT架构

采用Vision Transformer架构，具有强大的图像特征提取能力

多类别识别

可同时识别拉丁字母、中文、阿拉伯文三种文字类型以及非文本图像

模型能力

图像分类

文本类型识别

文档图像分析

使用案例

文档处理

多语言文档分类

自动分类包含不同语言文字的扫描文档

准确区分拉丁字母、中文和阿拉伯文文档

图像内容过滤

从图像集合中筛选出包含特定语言文本的图像

OCR预处理

OCR语言识别

在OCR处理前识别文档中的文字类型

提高后续OCR处理的准确性

属性	详情
学习率	0.0002
训练批次大小	16
评估批次大小	8
随机种子	42
优化器	Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型	线性
训练轮数	8
混合精度训练	原生自动混合精度（Native AMP）

训练损失	轮数	步数	验证损失	准确率
0.2719	2.08	100	0.4120	0.8657
0.1027	4.17	200	0.3907	0.8881
0.0723	6.25	300	0.3107	0.9030

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Finetuned Vit Image Text Classifier

模型简介

模型特点

模型能力

使用案例

🚀 微调视觉Transformer文档文本分类器

🚀 快速开始

✨ 主要特性

📚 详细文档

模型描述

训练和评估数据

训练超参数

训练结果

框架版本

📄 许可证