许可证: mit
基础模型: microsoft/resnet-18
标签:
- 训练生成
数据集:
- gaborcselle/font-examples
评估指标:
- 准确率
模型索引:
- 名称: font-identifier
结果:
- 任务:
名称: 图像分类
类型: image-classification
数据集:
名称: imagefolder
类型: imagefolder
配置: default
分割: test
参数: default
评估指标:
- 名称: 准确率
类型: accuracy
值: 0.963265306122449
小部件:
- 源: hf_samples/ArchitectsDaughter-Regular_1.png
示例标题: Architects Daughter
- 源: main/hf_samples/Courier_28.png
示例标题: Courier
- 源: main/hf_samples/Helvetica_3.png
示例标题: Helvetica
- 源: hf_samples/IBMPlexSans-Regular_25.png
示例标题: IBM Plex Sans
- 源: hf_samples/Inter-Regular_43.png
示例标题: Inter
- 源: hf_samples/Lobster-Regular_25.png
示例标题: Lobster
- 源: hf_samples/Trebuchet_MS_11.png
示例标题: Trebuchet MS
- 源: hf_samples/Verdana_Bold_43.png
示例标题: Verdana Bold
语言:
- en
字体识别器
该模型是基于microsoft/resnet-18在imagefolder数据集上微调后的版本。
结果: 损失: 0.1172; 准确率: 0.9633
尝试使用任何字体的截图,或此仓库'samples'子文件夹中的示例。
模型描述
识别图像中使用的字体。基于ResNet18的视觉分类器。
我在1天内完成了这个项目,并在Twitter/X、Pebble.social和Threads.net上记录了分钟级的日志。
构建此模型的代码位于此GitHub仓库中。
预期用途与限制
从训练数据中识别48种标准字体中的任意一种。
训练与评估数据
在gaborcselle/font-examples数据集上训练和评估(80/20分割)。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率: 5e-05
- 训练批次大小: 16
- 评估批次大小: 16
- 随机种子: 42
- 梯度累积步数: 4
- 总训练批次大小: 64
- 优化器: Adam,参数beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: linear
- 学习率预热比例: 0.1
- 训练轮数: 50
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
准确率 |
4.0243 |
0.98 |
30 |
3.9884 |
0.0204 |
0.8309 |
10.99 |
338 |
0.5536 |
0.8551 |
0.3917 |
20.0 |
615 |
0.2353 |
0.9388 |
0.2298 |
30.99 |
953 |
0.1326 |
0.9633 |
0.1804 |
40.0 |
1230 |
0.1421 |
0.9571 |
0.1987 |
46.99 |
1445 |
0.1250 |
0.9673 |
0.1728 |
48.0 |
1476 |
0.1293 |
0.9633 |
0.1337 |
48.78 |
1500 |
0.1172 |
0.9633 |
混淆矩阵
测试数据的混淆矩阵。

框架版本
- Transformers 4.36.0.dev0
- Pytorch 2.0.0
- Datasets 2.12.0
- Tokenizers 0.14.1