标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:10356
- 损失函数:多重负样本排序损失
基础模型: intfloat/multilingual-e5-large
小部件示例:
- 源句: "带角饰边的腿饰是一种腿部装饰,通常为高筒设计,上缘带有角状图案"
候选句:
- 源句: "当角色将未系好的鞋带绕成牢固的蝴蝶结时"
候选句:
- 源句: "若人物将眼镜从常规佩戴位置取下并握在手中时使用此标签。若仍架在鼻梁或头上,请参见调整眼镜及其相关标签"
候选句:
- 源句: "当角色双手都放在另一角色大腿上时"
候选句:
- 源句: "从腰部后方延伸的长条附属物,通常覆有毛发或鳞片,是兽娘角色的常见特征"
候选句:
- meandyou200175/word_embedding
管道标签: 句子相似度
库名称: sentence-transformers
评估指标:
- 余弦准确率@1
- 余弦准确率@2
- 余弦准确率@5
- 余弦准确率@10
- 余弦准确率@100
- 余弦精确率@1
- 余弦精确率@2
- 余弦精确率@5
- 余弦精确率@10
- 余弦精确率@100
- 余弦召回率@1
- 余弦召回率@2
- 余弦召回率@5
- 余弦召回率@10
- 余弦召回率@100
- 余弦标准化折损累计增益@10
- 余弦平均倒数排名@1
- 余弦平均倒数排名@2
- 余弦平均倒数排名@5
- 余弦平均倒数排名@10
- 余弦平均倒数排名@100
- 余弦平均精度@100
模型索引:
- 名称: 基于intfloat/multilingual-e5-large的SentenceTransformer
结果:
- 任务:
类型: 信息检索
名称: 信息检索
数据集:
名称: 未知
类型: 未知
指标:
- 类型: 余弦准确率@1
值: 0.9073
名称: 余弦准确率@1
- 类型: 余弦准确率@2
值: 0.9739
名称: 余弦准确率@2
- 类型: 余弦准确率@5
值: 0.9942
名称: 余弦准确率@5
- 类型: 余弦准确率@10
值: 0.9990
名称: 余弦准确率@10
- 类型: 余弦准确率@100
值: 1.0
名称: 余弦准确率@100
- 类型: 余弦精确率@1
值: 0.9073
名称: 余弦精确率@1
- 类型: 余弦精确率@2
值: 0.4870
名称: 余弦精确率@2
- 类型: 余弦精确率@5
值: 0.1988
名称: 余弦精确率@5
- 类型: 余弦精确率@10
值: 0.0999
名称: 余弦精确率@10
- 类型: 余弦精确率@100
值: 0.0100
名称: 余弦精确率@100
- 类型: 余弦召回率@1
值: 0.9073
名称: 余弦召回率@1
- 类型: 余弦召回率@2
值: 0.9739
名称: 余弦召回率@2
- 类型: 余弦召回率@5
值: 0.9942
名称: 余弦召回率@5
- 类型: 余弦召回率@10
值: 0.9990
名称: 余弦召回率@10
- 类型: 余弦召回率@100
值: 1.0
名称: 余弦召回率@100
- 类型: 余弦标准化折损累计增益@10
值: 0.9602
名称: 余弦标准化折损累计增益@10
- 类型: 余弦平均倒数排名@1
值: 0.9073
名称: 余弦平均倒数排名@1
- 类型: 余弦平均倒数排名@2
值: 0.9406
名称: 余弦平均倒数排名@2
- 类型: 余弦平均倒数排名@5
值: 0.9463
名称: 余弦平均倒数排名@5
- 类型: 余弦平均倒数排名@10
值: 0.9470
名称: 余弦平均倒数排名@10
- 类型: 余弦平均倒数排名@100
值: 0.9471
名称: 余弦平均倒数排名@100
- 类型: 余弦平均精度@100
值: 0.9471
名称: 余弦平均精度@100
基于intfloat/multilingual-e5-large的SentenceTransformer模型
这是基于intfloat/multilingual-e5-large微调的sentence-transformers模型。该模型将句子和段落映射到1024维稠密向量空间,可用于语义文本相似度计算、语义搜索、复述挖掘、文本分类、聚类等任务。
模型详情
模型描述
模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
使用方法
直接使用(Sentence Transformers)
首先安装库:
pip install -U sentence-transformers
然后加载模型进行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("meandyou200175/e5_large_finetune_word")
sentences = [
'从腰部后方延伸的长条附属物,通常覆有毛发或鳞片',
'尾巴',
'腹部特写日'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
评估结果
信息检索指标
指标 |
值 |
余弦准确率@1 |
0.9073 |
余弦准确率@2 |
0.9739 |
余弦准确率@5 |
0.9942 |
余弦准确率@10 |
0.9990 |
余弦准确率@100 |
1.0 |
标准化折损累计增益@10 |
0.9602 |
训练详情
训练数据集
- 样本量: 10,356
- 列:
query
和positive
- 损失函数: 多重负样本排序损失(scale=20.0, similarity_fct="cos_sim")
评估数据集
训练超参数
- 学习率: 2e-05
- 训练轮次: 5
- 预热比例: 0.1
- 批次大小: 16
- FP16混合精度: 启用
框架版本
- Python: 3.11.11
- Sentence Transformers: 3.4.1
- PyTorch: 2.5.1+cu124