许可证:cc-by-4.0
语言:
- 波兰语
数据集:
- 维基百科
任务标签:句子相似度
标签:
- sentence-transformers
- 特征提取
- 句子相似度
示例:
- 源句子:"机器学习是人工智能理念发展及其实际应用方法的结果。"
对比句子:
- "深度学习是人工智能方法实际应用及其发展的体现。"
- "卡斯帕罗夫指控IBM公司欺诈,当时该公司拒绝让他查看深蓝早期的对弈记录。"
- "雌性体长10-11毫米,后腿上的刷毛用于收集花粉,腹部末端的毛发呈明亮的橙红色。"
示例标题:"机器学习"
SHerbert large - 波兰语SentenceBERT
SentenceBERT是对预训练BERT网络的改进,采用孪生和三重网络结构生成具有语义意义的句子嵌入,可通过余弦相似度进行比较。训练基于原论文《用于语义文本相似性任务的孪生BERT模型》,并对训练数据使用方式进行了微调。该模型旨在根据文本的语义和主题相似性生成不同的嵌入表示。
语义文本相似性分析两段文本的相似程度。
更多模型构建细节请参阅我们的博客文章。
基础模型为波兰语HerBERT。HerBERT是基于BERT的语言模型,详情参见论文《HerBERT:高效预训练的波兰语Transformer语言模型》。
训练语料
模型仅使用维基百科数据进行训练。
分词器
遵循原版HerBERT实现,采用字符级字节对编码(CharBPETokenizer)将训练数据切分为5万词元的子词单元,分词器通过tokenizers库训练完成。
推荐使用快速版分词器HerbertTokenizerFast。
使用示例
from transformers import AutoTokenizer, AutoModel
from sklearn.metrics import pairwise
sbert = AutoModel.from_pretrained("Voicelab/sbert-large-cased-pl")
tokenizer = AutoTokenizer.from_pretrained("Voicelab/sbert-large-cased-pl")
s0 = "机器学习是人工智能理念发展及其实际应用方法的结果。"
s1 = "深度学习是人工智能方法实际应用及其发展的体现。"
s2 = "卡斯帕罗夫指控IBM公司欺诈,当时该公司拒绝让他查看深蓝早期的对弈记录。"
tokens = tokenizer([s0, s1, s2],
padding=True,
truncation=True,
return_tensors='pt')
x = sbert(tokens["input_ids"],
tokens["attention_mask"]).pooler_output
print(pairwise.cosine_similarity(x[0], x[1]))
print(pairwise.cosine_similarity(x[0], x[2]))
性能对比
模型 |
准确率 |
来源 |
SBERT-WikiSec-base (英文) |
80.42% |
https://arxiv.org/abs/1908.10084 |
SBERT-WikiSec-large (英文) |
80.78% |
https://arxiv.org/abs/1908.10084 |
sbert-base-cased-pl |
82.31% |
https://huggingface.co/Voicelab/sbert-base-cased-pl |
sbert-large-cased-pl |
84.42% |
https://huggingface.co/Voicelab/sbert-large-cased-pl |
许可证
CC BY 4.0
引用
使用本模型时请引用相关论文。
作者
模型由Voicelab.ai的NLP研究团队训练完成。
联系我们请访问官网。