标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:2351
- 损失函数:余弦相似度损失
基础模型: sentence-transformers/all-mpnet-base-v2
小部件:
- 源句: "你是否有时感觉思绪强烈到几乎能听见它们?"
对比句:
- "无论周围发生什么,我的情绪几乎总是显得平淡无奇。"
- "脑海中是否会出现强烈的画面或记忆,让你感觉此刻正在重新经历?"
- "我常以为听到人说话,结果发现根本没人。"
- 源句: "难以集中注意力?"
对比句:
- "我的思绪如此模糊不清,真希望能伸手把它们整理好。"
- "大多数时候我发现很难理清思路。"
- "经历过睡眠障碍?"
- 源句: "感到紧张或易受惊吓?"
对比句:
- "我常担心有人或事物在控制我的行为。"
- "别人觉得我的对话令人困惑或难以理解。"
- "为各种事情过度担忧?"
- 源句: "你是否常需提防他人占你便宜?"
对比句:
- "我常对周围发生的事情感到困惑。"
- "我有时怀疑是否有一小群人能操控其他人的行为。"
- "我曾感觉陌生人在读取我的想法。"
- 源句: "我不擅长通过言谈举止表达真实感受。"
对比句:
- "一天中大部分时间感到低落或抑郁"
- "感到紧张或焦虑?"
- "经历过睡眠障碍?"
管道标签: 句子相似度
库名称: sentence-transformers
指标:
- 皮尔逊余弦
- 斯皮尔曼余弦
模型索引:
- 名称: 基于sentence-transformers/all-mpnet-base-v2的SentenceTransformer
结果:
- 任务:
类型: 语义相似度
名称: 语义相似性
数据集:
名称: 未知
类型: 未知
指标:
- 类型: 皮尔逊余弦
值: 0.5680489773046146
名称: 皮尔逊余弦
- 类型: 斯皮尔曼余弦
值: 0.5532689999140259
名称: 斯皮尔曼余弦
基于sentence-transformers/all-mpnet-base-v2的SentenceTransformer
这是从sentence-transformers/all-mpnet-base-v2微调的sentence-transformers模型。它将句子和段落映射到768维密集向量空间,可用于语义文本相似性、语义搜索、复述挖掘、文本分类、聚类等任务。
模型详情
模型描述
模型来源
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: MPNetModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
使用方式
直接使用(句子转换器)
首先安装句子转换器库:
pip install -U sentence-transformers
然后加载模型并运行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sentence_transformers_model_id")
sentences = [
'我不擅长通过言谈举止表达真实感受。',
'感到紧张或焦虑?',
'经历过睡眠障碍?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
评估
指标
语义相似性
指标 |
值 |
皮尔逊余弦 |
0.568 |
斯皮尔曼余弦 |
0.5533 |
训练详情
训练数据集
未命名数据集
评估数据集
未命名数据集
- 大小: 236个评估样本
- 列:
句子1
, 句子2
和分数
- 基于236个样本的近似统计:
|
句子1 |
句子2 |
分数 |
类型 |
字符串 |
字符串 |
浮点数 |
详情 |
|
|
|
- 样本:
句子1 |
句子2 |
分数 |
害怕会有可怕的事情发生? |
我难以跟上他人的对话。 |
0.19 |
你相信心灵感应(读心术)吗? |
感到紧张或易受惊吓? |
0.1 |
别人觉得我有点古怪。 |
我曾感觉物品的排列方式(如房间家具)中藏着给我的信息。 |
0.0 |
训练超参数
非默认超参数
eval_strategy
: 按步评估
per_device_train_batch_size
: 16
训练日志
周期 |
步数 |
训练损失 |
验证损失 |
斯皮尔曼余弦 |
0.0680 |
10 |
0.2239 |
- |
- |
... |
... |
... |
... |
... |
3.0 |
441 |
- |
- |
0.5533 |
框架版本
- Python: 3.10.12
- Sentence Transformers: 3.3.1
- Transformers: 4.47.1
- PyTorch: 2.5.1+cu121
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
引用
BibTeX
句子转换器
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: 使用连体BERT网络的句子嵌入",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "2019年自然语言处理实证方法会议论文集",
month = "11",
year = "2019",
publisher = "计算语言学协会",
url = "https://arxiv.org/abs/1908.10084",
}