pipeline_tag: 句子相似度
license: cc-by-4.0
tags:
-
句子转换器
-
特征提取
-
句子相似度
-
转换器
language:
-
多语言
-
英语
-
印地语
-
马拉地语
-
卡纳达语
-
泰米尔语
-
泰卢固语
-
马拉雅拉姆语
-
古吉拉特语
-
奥里亚语
-
旁遮普语
-
孟加拉语
widget:
-
source_sentence: "दिवाळी आपण मोठ्या उत्साहाने साजरी करतो"
sentences:
- "दिवाळी आपण आनंदाने साजरी करतो"
- "दिवाळी हा दिव्यांचा सण आहे"
example_title: "单语- 马拉地语"
-
source_sentence: "हम दीपावली उत्साह के साथ मनाते हैं"
sentences:
- "हम दीपावली खुशियों से मनाते हैं"
- "दिवाली रोशनी का त्योहार है"
example_title: "单语- 印地语"
-
source_sentence: "અમે ઉત્સાહથી દિવાળી ઉજવીએ છીએ"
sentences:
- "દિવાળી આપણે ખુશીઓથી ઉજવીએ છીએ"
- "દિવાળી એ રોશનીનો તહેવાર છે"
example_title: "单语- 古吉拉特语"
-
source_sentence: "आम्हाला भारतीय असल्याचा अभिमान आहे"
sentences:
- "हमें भारतीय होने पर गर्व है"
- "భారతీయులమైనందుకు గర్విస్తున్నాం"
- "અમને ભારતીય હોવાનો ગર્વ છે"
example_title: "跨语言示例1"
-
source_sentence: "ਬਾਰਿਸ਼ ਤੋਂ ਬਾਅਦ ਬਗੀਚਾ ਸੁੰਦਰ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ"
sentences:
- "മഴയ്ക്ക് ശേഷം പൂന്തോട്ടം മനോഹരമായി കാണപ്പെടുന്നു"
- "ବର୍ଷା ପରେ ବଗିଚା ସୁନ୍ଦର ଦେଖାଯାଏ |"
- "बारिश के बाद बगीचा सुंदर दिखता है"
example_title: "跨语言示例2"
IndicSBERT-STS
这是一个基于印度十种主要语言的STS数据集训练的IndicSBERT模型(l3cube-pune/indic-sentence-bert-nli)。
该单一模型适用于英语、印地语、马拉地语、卡纳达语、泰米尔语、泰卢固语、古吉拉特语、奥里亚语、旁遮普语、马拉雅拉姆语和孟加拉语。该模型还具备跨语言能力。
作为MahaNLP项目的一部分发布:https://github.com/l3cube-pune/MarathiNLP
通用印度语句子BERT模型在此处共享:l3cube-pune/indic-sentence-bert-nli
关于数据集、模型和基线结果的更多详情,请参阅我们的论文
@article{deode2023l3cube,
title={L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence representations using multilingual BERT},
author={Deode, Samruddhi and Gadre, Janhavi and Kajale, Aditi and Joshi, Ananya and Joshi, Raviraj},
journal={arXiv preprint arXiv:2304.11434},
year={2023}
}
单语Indic SBERT论文
多语言Indic SBERT论文
其他单语相似度模型如下:
马拉地语相似度
印地语相似度
卡纳达语相似度
泰卢固语相似度
马拉雅拉姆语相似度
泰米尔语相似度
古吉拉特语相似度
奥里亚语相似度
孟加拉语相似度
旁遮普语相似度
印度语相似度(多语言)
其他单语印度语句子BERT模型如下:
马拉地语SBERT
印地语SBERT
卡纳达语SBERT
泰卢固语SBERT
马拉雅拉姆语SBERT
泰米尔语SBERT
古吉拉特语SBERT
奥里亚语SBERT
孟加拉语SBERT
旁遮普语SBERT
印度语SBERT(多语言)
使用方法(Sentence-Transformers)
安装sentence-transformers后,使用此模型变得简单:
pip install -U sentence-transformers
然后可以像这样使用模型:
from sentence_transformers import SentenceTransformer
sentences = ["这是一个示例句子", "每个句子都会被转换"]
model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)