标签:
流水线标签: 句子相似度
库名称: sentence-transformers
基于nomic-ai/nomic-embed-text-v2-moe的SentenceTransformer模型
这是从nomic-ai/nomic-embed-text-v2-moe微调的sentence-transformers模型。该模型将句子和段落映射到768维稠密向量空间,可用于语义文本相似度计算、语义搜索、复述挖掘、文本分类、聚类等任务。
模型详情
模型描述
模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NomicBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用方式
直接使用(Sentence Transformers库)
首先安装库:
pip install -U sentence-transformers
加载模型并推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("BlackBeenie/nomic-embed-text-v2-moe-msmarco-bpr")
sentences = [
'成人日托提供哪些服务',
'长期护理消费者指南:成人日托是在团体环境中提供的计划性服务,旨在改善或维持老年人及残障人士的健康功能,并提供社交活动。',
'2008年大都会人寿成人日间服务市场调查显示,成人日托服务日均费用为64美元,过去一年服务量增长5%。',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
训练详情
训练数据集
- 数据集规模: 498,970个训练样本
- 列名:
sentence_0
, sentence_1
, sentence_2
- 损失函数:
beir.losses.bpr_loss.BPRLoss
训练超参数
- 评估策略: 按步评估
- 单设备训练批大小: 32
- 单设备评估批大小: 32
- 训练轮次: 5
- 混合精度训练: 启用(FP16)
- 多数据集批采样器: 轮询调度
框架版本
- Python: 3.11.11
- Sentence Transformers: 3.4.1
- Transformers: 4.49.0
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.3.2
- Tokenizers: 0.21.0
引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}