语言:
- 英文
许可证: apache-2.0
标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:2130621
- 损失函数:对比损失
基础模型: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
小部件示例:
- 源句: Kim Chol-sam
对比句:
- Stankevich Sergey Nikolayevich
- Kim Chin-So’k
- Julen Lopetegui Agote
- 源句: ÿØŸäŸÜÿß ÿ®ŸÜÿ™ ÿπÿ®ÿØ ÿߟÑÿ≠ŸÖŸäÿØ
对比句:
- Alexia van Amsberg
- Anthony Nicholas Colin Maitland Biddulph, 5th Baron Biddulph
- Dina bint Abdul-Hamíd
- 源句: ’Ñ’∏÷Ç’∞’°’¥’•’§ ’¢’•’∂ ’Ü’°’´÷Ü ‘±’¨ ’ç’°’∏÷Ç’§
对比句:
- Karpov Anatoly Evgenyevich
- GNPower Mariveles Coal Plant [former]
- Muhammed bin Nayef bin Abdul Aziz Al Saud
- 源句: Edward Gnehm
对比句:
- –®–∞—É—ç—Ä—Ç–µ, –•–∞—Ä—Ç–º—É—Ç
- –•–∞–Ω–∑–∞–¥–∞ –§–∏–ª–∏–ø–ø, –≠–¥–∏–Ω–±—É—Ä–≥ –≥–µ—Ä—Ü–æ–≥—ñ
- AFX
- 源句: Schori i Liding√∂
对比句:
- Yordan Canev
- ကားပေါ့ အန်နာတိုလီ
- BYSTROV, Mikhail Ivanovich
任务类型: 句子相似度
库名称: sentence-transformers
评估指标:
- 余弦准确率
- 带阈值的余弦准确率
- 余弦F1值
- 带阈值的余弦F1值
- 余弦精确率
- 余弦召回率
- 余弦平均精度
- 余弦马修斯相关系数
模型索引:
- 名称: Graphlet-AI/eridu
结果:
- 任务类型: 二分类
任务名称: 二分类
数据集名称: 多语言MiniLM L12 v2句子转换器
指标:
- 类型: 余弦准确率
值: 0.9843
名称: 余弦准确率
- 类型: 带阈值的余弦准确率
值: 0.7421
名称: 带阈值的余弦准确率
- 类型: 余弦F1值
值: 0.9761
名称: 余弦F1值
- 类型: 带阈值的余弦F1值
值: 0.7421
名称: 带阈值的余弦F1值
- 类型: 余弦精确率
值: 0.9703
名称: 余弦精确率
- 类型: 余弦召回率
值: 0.9819
名称: 余弦召回率
- 类型: 余弦平均精度
值: 0.9956
名称: 余弦平均精度
- 类型: 余弦马修斯相关系数
值: 0.9644
名称: 余弦马修斯相关系数
Graphlet-AI/eridu模型
注意:该模型仍在开发中,暂不适合生产环境使用。
这是一个基于表示学习的深度模糊匹配系统,专为跨语言人名和公司名实体解析设计。相比传统字符串距离方法,它能更精准地处理人名和公司名的深层语义特征。
该模型是基于sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2微调的句子转换器模型,使用Open Sanctions匹配训练数据进行训练。它能将句子和段落映射到384维稠密向量空间,适用于深度模糊实体解析流程。
模型详情
快速使用(5行代码)
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Graphlet-AI/eridu")
names = [
"Russell Jurney",
"Russ Jurney",
"–†—É—Å—Å –î–∂–µ—Ä–Ω–∏",
]
embeddings = model.encode(names)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.numpy())
Eridu项目概述
本项目通过表示学习实现跨语言人名/公司名的深度模糊匹配。我们基于HuggingFace的预训练文本嵌入模型,使用Open Sanctions提供的200万标注人名/公司名对进行对比学习微调,解决了传统解析方法难以处理的文化差异问题。
模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False})
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_mean_tokens': True})
)
评估指标
指标 |
值 |
余弦平均精度 |
0.9956 |
余弦准确率 |
0.9843 |
余弦F1值 |
0.9761 |
训练详情
- 训练样本: 2,130,621对
- 评估样本: 2,663,276对
- 损失函数: 对比损失(margin=0.5)
- 学习率: 3e-5
- 训练周期: 8
- 批量大小: 1000
引用
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of EMNLP 2019",
year = "2019",
url = "https://arxiv.org/abs/1908.10084",
}