标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:523982
- 损失函数:均方误差损失
基础模型: FacebookAI/xlm-roberta-base
管道标签: 句子相似度
库名称: sentence-transformers
指标:
- 负均方误差
- 皮尔逊余弦相似度
- 斯皮尔曼余弦相似度
模型索引:
- 名称: 基于FacebookAI/xlm-roberta-base的SentenceTransformer
结果:
- 任务:
类型: 知识蒸馏
名称: 知识蒸馏
数据集:
名称: 英语-乌克兰语均方误差
类型: mse-en-ua
指标:
- 类型: 负均方误差
值: -1.1089269071817398
名称: 负均方误差
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts17英语-英语
类型: sts17-en-en
指标:
- 类型: 皮尔逊余弦相似度
值: 0.6784819487397877
名称: 皮尔逊余弦相似度
- 类型: 斯皮尔曼余弦相似度
值: 0.7308493185913256
名称: 斯皮尔曼余弦相似度
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts17英语-乌克兰语
类型: sts17-en-ua
指标:
- 类型: 皮尔逊余弦相似度
值: 0.592555339963418
名称: 皮尔逊余弦相似度
- 类型: 斯皮尔曼余弦相似度
值: 0.6197606373137193
名称: 斯皮尔曼余弦相似度
- 任务:
类型: 语义相似度
名称: 语义相似度
数据集:
名称: sts17乌克兰语-乌克兰语
类型: sts17-ua-ua
指标:
- 类型: 皮尔逊余弦相似度
值: 0.6158998595292998
名称: 皮尔逊余弦相似度
- 类型: 斯皮尔曼余弦相似度
值: 0.6445750755380512
名称: 斯皮尔曼余弦相似度
许可证: mit
数据集:
- sentence-transformers/parallel-sentences-talks
- sentence-transformers/parallel-sentences-tatoeba
- sentence-transformers/parallel-sentences-wikimatrix
语言:
- 乌克兰语
- 英语
基于FacebookAI/xlm-roberta-base的SentenceTransformer
这是一个基于FacebookAI/xlm-roberta-base微调的sentence-transformers模型。它将句子和段落映射到768维的密集向量空间,可用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等任务。
👉 在GitHub上查看该模型。
模型详情
模型描述
模型来源
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用方法
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
然后可以加载该模型并运行推理。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("panalexeu/xlm-roberta-ua-distilled")
sentences = [
"You'd better consult the doctor.",
'Краще проконсультуйся у лікаря.',
'Їх позначають як Aufklärungsfahrzeug 93 та Aufklärungsfahrzeug 97 відповідно.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
评估
指标
知识蒸馏
语义相似度
指标 |
sts17-en-en |
sts17-en-ua |
sts17-ua-ua |
皮尔逊余弦相似度 |
0.6785 |
0.5926 |
0.6159 |
斯皮尔曼余弦相似度 |
0.7308 |
0.6198 |
0.6446 |
训练详情
训练数据集
- 数据集: parallel-sentences-talks, parallel-sentences-wikimatrix, parallel-sentences-tatoeba
- 大小: 523,982个训练样本
- 列:
english
, non_english
, 和 label
- 基于前1000个样本的近似统计:
|
english |
non_english |
label |
类型 |
字符串 |
字符串 |
列表 |
详情 |
- 最小: 5个标记
- 平均: 21.11个标记
- 最大: 254个标记
|
- 最小: 4个标记
- 平均: 23.15个标记
- 最大: 293个标记
|
|
- 样本:
english |
non_english |
label |
Her real name is Lydia (リディア, Ridia), but she was mistaken for a boy and called Ricard. |
Справжнє ім'я — Лідія, але її помилково сприйняли за хлопчика і назвали Рікард. |
[0.15217968821525574, -0.17830222845077515, -0.12677159905433655, 0.22082313895225525, 0.40085524320602417, ...] |
(Applause) So he didn't just learn water. |
(Аплодисменти) Він не тільки вивчив слово "вода". |
[-0.1058148592710495, -0.08846072107553482, -0.2684604823589325, -0.105219267308712, 0.3050258755683899, ...] |
It is tightly integrated with SAM, the Storage and Archive Manager, and hence is often referred to as SAM-QFS. |
Вона тісно інтегрована з SAM (Storage and Archive Manager), тому часто називається SAM-QFS. |
[0.03270340710878372, -0.45798248052597046, -0.20090211927890778, 0.006579531356692314, -0.03178019821643829, ...] |
- 损失函数:
MSELoss
评估数据集
- 数据集: parallel-sentences-talks, parallel-sentences-wikimatrix, parallel-sentences-tatoeba
- 大小: 3,838个评估样本
- 列:
english
, non_english
, 和 label
- 基于前1000个样本的近似统计:
|
english |
non_english |
label |
类型 |
字符串 |
字符串 |
列表 |
详情 |
- 最小: 5个标记
- 平均: 15.64个标记
- 最大: 143个标记
|
- 最小: 5个标记
- 平均: 16.98个标记
- 最大: 148个标记
|
|
- 样本:
english |
non_english |
label |
I have lost my wallet. |
Я загубив гаманець. |
[-0.11186987161636353, -0.03419225662946701, -0.31304317712783813, 0.0838347002863884, 0.108644500374794, ...] |
It's a pharmaceutical product. |
Це фармацевтичний продукт. |
[0.04133488982915878, -0.4182000756263733, -0.30786487460136414, -0.09351564198732376, -0.023946482688188553, ...] |
We've all heard of the Casual Friday thing. |
Всі ми чули про «джинсову п’ятницю» (вільна форма одягу).</code |
|