标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:4997
- 损失函数:多重负例排序损失
小部件:
- 源句: 库存专家
对比句:
- 源句: 学前班教师Lea
对比句:
- 源句: 服务员
对比句:
- 源句: 生产文员
对比句:
- 源句: 夜班审计员
对比句:
- 安保轮班主管
- 清洁工
- 夜班审计员
管道标签: 句子相似度
库名称: 句子转换器
句子转换器模型
这是一个基于sentence-transformers框架训练的模型。该模型能将句子和段落映射到1024维的稠密向量空间,可用于语义文本相似度计算、语义搜索、复述挖掘、文本分类、聚类分析等任务。
模型详情
模型描述
- 模型类型: 句子转换器
- 最大序列长度: 512个标记
- 输出维度: 1024维
- 相似度函数: 余弦相似度
模型来源
完整模型架构
句子转换器(
(0): 变压器({'最大序列长度': 512, '是否小写': False}) 使用变压器模型: XLMRobertaModel
(1): 池化({'词嵌入维度': 1024, '是否池化类别标记': False, '是否池化平均标记': True, '是否池化最大标记': False, '是否池化均方根长度标记': False, '是否加权平均池化标记': False, '是否池化最后标记': False, '是否包含提示': True})
(2): 归一化()
)
使用方式
直接使用(句子转换器库)
首先安装句子转换器库:
pip install -U sentence-transformers
然后加载模型并进行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("engineai/entity_matching_jobs")
sentences = [
'夜班审计员',
'夜间审计员',
'安保轮班主管',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
训练详情
训练数据集
未命名数据集
评估数据集
未命名数据集
- 样本量: 5,707个评估样本
- 列名:
text_a
, text_b
和label
- 基于前1000个样本的统计:
|
text_a |
text_b |
label |
类型 |
字符串 |
字符串 |
整数 |
详情 |
- 最小: 3个标记
- 平均: 5.69个标记
- 最大: 11个标记
|
- 最小: 3个标记
- 平均: 5.54个标记
- 最大: 15个标记
|
|
- 示例:
text_a |
text_b |
label |
餐饮主管 |
食品服务主管 |
1 |
训练超参数
非默认超参数
评估策略
: 分步
每设备训练批次大小
: 200
学习率
: 4e-05
权重衰减
: 0.01
训练周期数
: 40
预热比例
: 0.2
结束时加载最佳模型
: 是
训练日志
周期 |
步数 |
训练损失 |
20.0 |
500 |
0.0692 |
40.0 |
1000 |
0.0508 |
框架版本
- Python: 3.10.12
- 句子转换器: 3.3.1
- 转换器: 4.47.1
- PyTorch: 2.1.0+cu118
- 加速库: 1.2.1
- 数据集: 3.2.0
- 分词器: 0.21.0
引用文献
BibTeX格式
句子转换器
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: 基于孪生BERT网络的句子嵌入",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "2019年自然语言处理实证方法会议论文集",
month = "11",
year = "2019",
publisher = "计算语言学协会",
url = "https://arxiv.org/abs/1908.10084",
}
多重负例排序损失
@misc{henderson2017efficient,
title={智能回复的高效自然语言响应建议},
author={Matthew Henderson 等},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}