标签:
- 视觉
- 硬币
- 剪辑
- 硬币检索
- 硬币识别
- 硬币搜索引擎
- 多模态学习
小部件:
- 来源: >-
https://huggingface.co/datasets/mishig/sample_images/resolve/main/cat-dog-music.png
候选标签: 播放音乐, 运动
示例标题: 猫与狗
许可证: apache-2.0
库名称: transformers
管道标签: 特征提取
Coin-CLIP 🪙 : 利用CLIP增强硬币图像检索
模型详情
此模型(Coin-CLIP)基于OpenAI的**CLIP (ViT-B/32)**模型,通过对比学习技术在超过340,000
张硬币图像数据集上微调而成。这一专用模型旨在显著提升对硬币图像的特征提取能力,从而实现更精准的基于图像的搜索功能。Coin-CLIP结合了视觉变换器(ViT)的强大性能与CLIP的多模态学习能力,专为钱币学领域定制。
核心特点:
- 先进的硬币图像检索技术;
- 针对钱币图像的增强特征提取;
- 与CLIP多模态学习的无缝集成。
对比: Coin-CLIP vs. CLIP
示例1 (左: Coin-CLIP; 右: CLIP)

示例2 (左: Coin-CLIP; 右: CLIP)

更多示例可见: breezedeus/Coin-CLIP: Coin CLIP
使用与限制
- 用途: 该模型主要用于从硬币图像中提取特征向量,以便在硬币图像数据库中实现高效精准的图像搜索。
- 限制: 由于模型专门针对硬币图像训练,处理非硬币图像时效果可能欠佳。
文档
模型使用
Transformers
from PIL import Image
import requests
import torch.nn.functional as F
from transformers import CLIPProcessor, CLIPModel
model = CLIPModel.from_pretrained("breezedeus/coin-clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("breezedeus/coin-clip-vit-base-patch32")
image_fp = "路径/至/硬币图片.jpg"
image = Image.open(image_fp).convert("RGB")
inputs = processor(images=image, return_tensors="pt")
img_features = model.get_image_features(**inputs)
img_features = F.normalize(img_features, dim=1)
工具
为简化Coin-CLIP模型使用,我们提供了Python库breezedeus/Coin-CLIP: Coin CLIP用于快速构建硬币图像检索引擎。
安装
pip install coin_clip
提取特征向量
from coin_clip import CoinClip
model = CoinClip(model_name='breezedeus/coin-clip-vit-base-patch32')
images = ['examples/10_back.jpg', 'examples/16_back.jpg']
img_feats, success_ids = model.get_image_features(images)
print(img_feats.shape)
更多工具见: breezedeus/Coin-CLIP: Coin CLIP
训练数据
模型使用专业硬币图像数据集训练,包含多种货币的硬币图片。
训练过程
在OpenAI CLIP (ViT-B/32)预训练模型基础上,采用对比学习技术和参数设置对硬币图像数据集进行微调。
性能表现
该模型在硬币图像检索任务中展现出卓越性能。
反馈
关于模型的疑问或意见反馈渠道。
欢迎联系作者Breezedeus。