库名称: transformers
许可证: gpl-3.0
数据集:
- phunc20/nj_biergarten_captcha_v2
基础模型:
- microsoft/trocr-base-handwritten
模型卡片:trocr-base-handwritten_nj_biergarten_captcha_v2
这是一个用于验证码OCR的模型。
模型详情
模型描述
这是一个基于microsoft/trocr-base-handwritten
微调的简单模型,训练数据集为phunc20/nj_biergarten_captcha_v2
。
用途
直接使用
import torch
if torch.cuda.is_available():
device = torch.device("cuda")
else:
device = torch.device("cpu")
from transformers import TrOCRProcessor, VisionEncoderDecoderModel
hub_dir = "phunc20/trocr-base-handwritten_nj_biergarten_captcha_v2"
processor = TrOCRProcessor.from_pretrained(hub_dir)
model = VisionEncoderDecoderModel.from_pretrained(hub_dir)
model = model.to(device)
from PIL import Image
image = Image.open("/path/to/image")
pixel_values = processor(image, return_tensors='pt').pixel_values
pixel_values = pixel_values.to(device)
outputs = model.generate(pixel_values)
pred_str = processor.batch_decode(outputs, skip_special_tokens=True)[0]
偏差、风险与限制
尽管该模型在数据集phunc20/nj_biergarten_captcha_v2
上表现良好,但在所有验证码图像上的表现并不尽如人意。在这方面,该模型的表现不如人类。
建议
用户(包括直接使用者和下游使用者)应了解模型的潜在风险、偏差和局限性。需要更多信息以提供进一步建议。
如何开始使用该模型
使用以下代码开始使用该模型。
[需要更多信息]
训练详情
训练数据
如前所述,该模型在phunc20/nj_biergarten_captcha_v2
上进行训练。具体来说,训练集为train
分割,验证集为validation
分割,未使用test
分割。
训练过程
请参考
https://gitlab.com/phunc20/captchew/-/blob/main/colab_notebooks/train_from_pretrained_Seq2SeqTrainer_torchDataset.ipynb?ref_type=heads
该过程改编自
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/TrOCR/Fine_tune_TrOCR_on_IAM_Handwriting_Database_using_Seq2SeqTrainer.ipynb
评估
测试数据、因素与指标
测试数据
phunc20/nj_biergarten_captcha_v2
的test
分割
- 该Kaggle数据集 https://www.kaggle.com/datasets/fournierp/captcha-version-2-images/data
(在本模型卡片中,我们将此数据集称为kaggle_test_set
。)
因素
[需要更多信息]
指标
CER(字符错误率)、完全匹配率和平均长度差异。前两项可在HuggingFace文档中找到。最后一项是我比较关心的一个指标,其解释可在源代码中找到:
https://gitlab.com/phunc20/captchew/-/blob/v0.1/average_length_difference.py
结果
在phunc20/nj_biergarten_captcha_v2
的test
分割上:
模型 |
CER |
完全匹配率 |
平均长度差异 |
phunc20/trocr-base-handwritten_nj_biergarten_captcha_v2 |
0.001333 |
496/500 |
1/500 |
microsoft/trocr-base-handwritten |
0.9 |
5/500 |
2.4 |
在kaggle_test_set
上:
模型 |
CER |
完全匹配率 |
平均长度差异 |
phunc20/trocr-base-handwritten_nj_biergarten_captcha_v2 |
0.4381 |
69/1070 |
0.1289 |
microsoft/trocr-base-handwritten |
1.0112 |
17/1070 |
2.4439 |
环境影响
碳排放量可以使用机器学习影响计算器估算,该工具来自Lacoste等人(2019)。
- 硬件类型: [需要更多信息]
- 使用时长: [需要更多信息]
- 云服务提供商: [需要更多信息]
- 计算区域: [需要更多信息]
- 碳排放量: [需要更多信息]