F

Finetuned Vit Image Text Classifier

由 ernie-ai 开发
基于ViT架构的图像分类模型,用于识别图像中是否包含文本及文本类型(拉丁字母、中文、阿拉伯文)
下载量 45
发布时间 : 2/8/2023
模型介绍
内容详情
替代品

模型简介

该模型是在google/vit-base-patch16-224-in21k基础上微调的图像分类器,专门用于文档文本分类任务,可识别图像中的文本类型(拉丁字母、中文、阿拉伯文)以及非文本图像。

模型特点

高准确率文本分类
在测试集上达到90.3%的准确率,能有效区分不同文字类型
基于ViT架构
采用Vision Transformer架构,具有强大的图像特征提取能力
多类别识别
可同时识别拉丁字母、中文、阿拉伯文三种文字类型以及非文本图像

模型能力

图像分类
文本类型识别
文档图像分析

使用案例

文档处理
多语言文档分类
自动分类包含不同语言文字的扫描文档
准确区分拉丁字母、中文和阿拉伯文文档
图像内容过滤
从图像集合中筛选出包含特定语言文本的图像
OCR预处理
OCR语言识别
在OCR处理前识别文档中的文字类型
提高后续OCR处理的准确性