许可证: mit
数据集:
- mazafard/portugues_ocr_dataset_full
语言:
- 英语
- 葡萄牙语
基础模型:
- microsoft/trocr-base-printed
任务标签: 图像转文本
碳排放: 0.43
来源: "AutoTrain"
训练类型: "微调"
地理位置: "美国"
使用硬件: "A100"
标签:
- 光学字符识别
- 文本识别
- trocr
- 视觉
- 视觉与语言
模型索引:
- 名称: trocr-finetuned-portugues
结果:
- 任务:
类型: 光学字符识别
名称: 光学字符识别
数据集:
类型: mazafard/portugues_ocr_dataset_full
名称: portugues_ocr_dataset_full
参数: 默认
指标:
- 类型: 字符错误率
值: 0.01
名称: 字符错误率
- 类型: 单词错误率
值: 0.05
名称: 单词错误率
针对葡萄牙语优化的TrOCR模型
本仓库包含一个专门针对葡萄牙语文本光学字符识别(OCR)任务进行优化的TrOCR模型。该模型基于microsoft/trocr-base-printed模型,并在葡萄牙语文本图像数据集上进行了进一步训练。
模型描述
该模型来自Hugging Face Transformers库的VisionEncoderDecoderModel架构,结合了视觉编码器(处理图像)和文本解码器(生成文本)来完成OCR任务。
- 基础模型: microsoft/trocr-base-printed
- 微调数据集: mazafard/portugues_ocr_dataset_full
- 支持语言: 葡萄牙语
使用场景
本模型适用于从包含葡萄牙语文本的图像中提取文字,可用于以下场景:
- 葡萄牙语书籍和文档的数字化
- 葡萄牙语表格和发票的自动化数据录入
- 从葡萄牙语截图或扫描图像中提取信息
使用方法
1. 安装依赖:
bash pip install transformers datasets Pillow requests
2. 加载模型和处理器:
python from transformers import VisionEncoderDecoderModel, TrOCRProcessor from PIL import Image
model = VisionEncoderDecoderModel.from_pretrained("mazafard/trocr-finetuned_20250422_125947")
processor = TrOCRProcessor.from_pretrained("mazafard/trocr-finetuned_20250422_125947")
image = Image.open("图片路径.png").convert("RGB")
pixel_values = processor(image, return_tensors="pt").pixel_values
生成预测
generated_ids = model.generate(pixel_values) generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(generated_text)
局限性
- 对手写文本或特殊字体/样式的文本识别效果可能不佳
- 对复杂版式或低质量图片可能出现识别错误
训练详情
training_args = TrainingArguments(
输出目录="./trocr-finetuned",
每设备训练批次大小=56,
训练轮数=3,
保存步数=500,
日志记录步数=50,
学习率=5e-5,
梯度累积步数=2,
混合精度训练=True,
最大保存数=2,
移除未使用列=False,
数据加载器工作线程数=2,
)
评估结果
致谢