Eridu开源深度模糊匹配系统 - 免费部署跨语言人名公司名解析好帮手

首页

Eridu

由 Graphlet-AI 开发

基于表示学习的深度模糊匹配系统，专为跨语言人名和公司名实体解析设计

文本嵌入

Safetensors

英语开源协议:Apache-2.0 #跨语言实体匹配 #深度模糊匹配 #人名解析

下载量 17

发布时间 : 5/14/2025

模型简介

该模型是基于sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2微调的句子转换器模型，使用Open Sanctions匹配训练数据进行训练，适用于深度模糊实体解析流程。

模型特点

跨语言支持

能够处理多种语言的人名和公司名匹配

深度模糊匹配

相比传统字符串距离方法，能更精准地处理人名和公司名的深层语义特征

大规模训练数据

使用超过200万标注人名/公司名对进行对比学习微调

模型能力

跨语言实体解析

人名相似度计算

公司名相似度计算

句子嵌入生成

使用案例

合规与风险管理

制裁名单匹配

识别不同语言和拼写变体的制裁名单中的人员和公司

提高匹配准确率，减少误报

数据清洗与整合

跨数据库实体解析

合并来自不同来源的相同实体记录

提高数据质量，减少重复

🚀 Graphlet-AI/eridu

Graphlet-AI/eridu 是一个基于表征学习的多语言实体解析模型，用于人名和公司名的深度模糊匹配。它比传统的字符串距离方法效果更好，能跨语言和字符集匹配人名和公司名。

🚀 快速开始

安装依赖

首先需要安装 Sentence Transformers 库：

pip install -U sentence-transformers

加载模型并进行推理

from sentence_transformers import SentenceTransformer

# 从 Hugging Face Hub 下载模型
model = SentenceTransformer("Graphlet-AI/eridu")
# 运行推理
sentences = [
    'Schori i Liding√∂',
    'Yordan Canev',
    '·ÄÄ·Ä¨·Ä∏·Äï·Ä±·Ä´·Ä∑ ·Ä°·Äî·Ä∫·Äî·Ä¨·Äê·Ä≠·ÄØ·Äú·ÄÆ',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

✨ 主要特性

深度模糊匹配：利用表征学习，实现人名和公司名的深度模糊匹配，效果优于传统字符串距离方法。
多语言支持：能够跨语言和字符集进行人名和公司名的匹配。
易于使用：可以使用 Sentence Transformers 库在五行代码内完成模型的加载和推理。

📦 安装指南

安装 Sentence Transformers 库：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer

# 从 Hugging Face Hub 下载模型
model = SentenceTransformer("Graphlet-AI/eridu")

names = [
    "Russell Jurney",
    "Russ Jurney",
    "–†—É—Å—Å –î–∂–µ—Ä–Ω–∏",
]

embeddings = model.encode(names)
print(embeddings.shape)
# [3, 384]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

print(similarities.numpy())
# [[0.9999999  0.99406826 0.99406105]
#  [0.9940683  1.         0.9969202 ]
#  [0.99406105 0.9969202  1.        ]]

📚 详细文档

模型详情

项目概述

该项目是一个基于表征学习的人名和公司名深度模糊匹配系统，用于实体解析。它使用 HuggingFace 的预训练文本嵌入模型，并在 Open Sanctions Matcher 训练数据上进行对比学习微调，以实现跨语言和字符集的人名和公司名匹配。

模型描述

属性	详情
模型类型	Sentence Transformer
基础模型	sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
最大序列长度	128 个词元
输出维度	384 维
相似度函数	余弦相似度
语言	英语
许可证	apache-2.0

模型来源

文档：Graphlet-AI/eridu Documentation
代码仓库：Graphlet-AI/eridu on GitHub
Hugging Face：Graphlet-AI/eridu on Hugging Face
PyPi 包：Graphlet-AI/eridu on PyPi

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

评估

指标

二分类

数据集：sentence-transformers-paraphrase-multilingual-MiniLM-L12-v2
使用 BinaryClassificationEvaluator 进行评估

指标	值
cosine_accuracy	0.9843
cosine_accuracy_threshold	0.7421
cosine_f1	0.9761
cosine_f1_threshold	0.7421
cosine_precision	0.9703
cosine_recall	0.9819
cosine_ap	0.9956
cosine_mcc	0.9644

训练详情

训练数据集

未命名数据集
- 大小：2,130,621 个训练样本
- 列：sentence1、sentence2 和 label
- 基于前 1000 个样本的近似统计信息： | | sentence1 | sentence2 | label | | ---- | ---- | ---- | ---- | | 类型 | 字符串 | 字符串 | 浮点数 | | 详情 |
  - 最小：3 个词元
  - 平均：9.32 个词元
  - 最大：57 个词元
  |
  - 最小：3 个词元
  - 平均：9.16 个词元
  - 最大：54 个词元
  |
  - 最小：0.0
  - 平均：0.34
  - 最大：1.0
  |
- 样本： | sentence1 | sentence2 | label | | ---- | ---- | ---- | | Ï∫êÏä§Î¶∞ ÏÑ§Î¶¨Î≤à | Kathryn D. Sullivanov√° | 1.0 | | ‡¨∂‡¨ø‡¨¨‡¨∞‡¨æ‡¨ú ‡¨Ö‡¨ß‡¨æ‡¨≤‡¨∞‡¨æ‡¨ì ‡¨™‡¨æ‡¨ü‡¨ø‡¨≤ | Aleksander Lubocki | 0.0 | | –ü—ã—Ä–≤–∞–Ω–æ–≤, –ì–µ–æ—Ä–≥–∏ | „Ç¢„Éä„Éà„Éº„É™„Éº„Éª„Çª„É´„Ç∏„É•„Ç≥„Éï | 0.0 |
- 损失函数：ContrastiveLoss，参数如下：

{
    "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
    "margin": 0.5,
    "size_average": true
}

评估数据集

未命名数据集
- 大小：2,663,276 个评估样本
- 列：sentence1、sentence2 和 label
- 基于前 1000 个样本的近似统计信息： | | sentence1 | sentence2 | label | | ---- | ---- | ---- | ---- | | 类型 | 字符串 | 字符串 | 浮点数 | | 详情 |
  - 最小：3 个词元
  - 平均：9.34 个词元
  - 最大：102 个词元
  |
  - 最小：4 个词元
  - 平均：9.11 个词元
  - 最大：100 个词元
  |
  - 最小：0.0
  - 平均：0.33
  - 最大：1.0
  |
- 样本： | sentence1 | sentence2 | label | | ---- | ---- | ---- | | –ï–≤–∞ –•–µ—Ä–º–∞–Ω | I Xuan Karlos | 0.0 | | –ö–ª–∏—á–∫–æ–≤ –ê–Ω–¥—Ä—ñ–π –Ñ–≤–≥–µ–Ω–æ–≤–∏—á | –ê–Ω–¥—Ä—ç–π –Ø—û–≥–µ–Ω–∞–≤—ñ—á –ö–ª—ã—á–∫–æ—û | 1.0 | | –ö–∏–Ω–∞—Ö –ê. | Senator John Hickenlooper | 0.0 |
- 损失函数：ContrastiveLoss，参数如下：

{
    "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
    "margin": 0.5,
    "size_average": true
}

训练超参数

非默认超参数

eval_strategy: steps
per_device_train_batch_size: 1000
per_device_eval_batch_size: 1000
gradient_accumulation_steps: 4
learning_rate: 3e-05
weight_decay: 0.01
num_train_epochs: 8
warmup_ratio: 0.1
fp16_opt_level: O0
load_best_model_at_end: True
optim: adafactor

所有超参数

点击展开

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 1000
per_device_eval_batch_size: 1000
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 4
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 3e-05
weight_decay: 0.01
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 8
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: False
fp16_opt_level: O0
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
tp_size: 0
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adafactor
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: batch_sampler
multi_dataset_batch_sampler: proportional

训练日志

轮次	步数	训练损失	验证损失	sentence-transformers-paraphrase-multilingual-MiniLM-L12-v2_cosine_ap
-1	-1	-	-	0.7140
0.1877	100	-	0.0125	0.8849
0.3754	200	-	0.0090	0.9369
0.5631	300	-	0.0068	0.9630
0.7508	400	-	0.0052	0.9774
0.9385	500	0.0409	0.0040	0.9845
1.1276	600	-	0.0033	0.9887
1.3153	700	-	0.0028	0.9911
1.5031	800	-	0.0026	0.9927
1.6908	900	-	0.0022	0.9938
1.8785	1000	0.0131	0.0022	0.9944
2.0676	1100	-	0.0019	0.9950
2.2553	1200	-	0.0017	0.9956

框架版本

Python: 3.12.9
Sentence Transformers: 3.4.1
Transformers: 4.51.3
PyTorch: 2.7.0+cu126
Accelerate: 1.6.0
Datasets: 3.6.0
Tokenizers: 0.21.1

📄 许可证

本项目采用 apache-2.0 许可证。

📚 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

ContrastiveLoss

@inproceedings{hadsell2006dimensionality,
    author={Hadsell, R. and Chopra, S. and LeCun, Y.},
    booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
    title={Dimensionality Reduction by Learning an Invariant Mapping},
    year={2006},
    volume={2},
    number={},
    pages={1735-1742},
    doi={10.1109/CVPR.2006.100}
}