Tooka-SBERT开源波斯语嵌入模型 - 免费实现文本语义相似度计算

首页

Tooka SBERT

由 PartAI 开发

这是一个基于TookaBERT-Large的波斯语句子嵌入模型，可将文本映射到1024维向量空间，用于语义相似度计算等任务。

文本嵌入

Safetensors

其他开源协议:Apache-2.0 #波斯语句子相似度 #1024维向量嵌入 #语义搜索优化

下载量 2,847

发布时间 : 12/3/2024

模型简介

该模型是专为波斯语设计的句子转换器，能够将句子和段落转换为密集向量表示，适用于语义文本相似性、语义搜索、文本分类和聚类等任务。

模型特点

波斯语优化

专门针对波斯语文本进行优化，能够准确捕捉波斯语语义特征

高效相似度计算

使用余弦相似度快速计算句子间的语义相似度

大规模预训练

基于TookaBERT-Large预训练模型，具有强大的语义表示能力

模型能力

语义文本相似度计算

语义搜索

复述挖掘

文本分类

文本聚类

使用案例

信息检索

相似文档检索

在波斯语文档库中查找语义相似的文档

内容推荐

🚀 SentenceTransformer

本项目是一个经过训练的 sentence-transformers 模型。它能够将句子和段落映射到一个 1024 维的密集向量空间，可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。

🚀 快速开始

本模型可将句子和段落映射到 1024 维的密集向量空间，适用于语义文本相似度计算、语义搜索等多种自然语言处理任务。

✨ 主要特性

支持波斯语句子和段落的处理。
能够将输入映射到 1024 维的密集向量空间。
可用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等多种任务。

📦 安装指南

首先，你需要安装 Sentence Transformers 库：

pip install -U sentence-transformers

💻 使用示例

基础用法

安装完成后，你可以加载这个模型并进行推理：

from sentence_transformers import SentenceTransformer

# 从 🤗 Hub 下载模型
model = SentenceTransformer("PartAI/Tooka-SBERT")
# 进行推理
sentences = [
    'درنا از پرندگان مهاجر با پاهای بلند و گردن دراز است.',
    'درناها با قامتی بلند و بال‌های پهن، از زیباترین پرندگان مهاجر به شمار می‌روند.',
    'درناها پرندگانی کوچک با پاهای کوتاه هستند که مهاجرت نمی‌کنند.'
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# 获取嵌入向量的相似度分数
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

📚 详细文档

模型详情

属性	详情
模型类型	Sentence Transformer
基础模型	TookaBERT-Large
最大序列长度	512 个词元
输出维度	1024 个词元
相似度函数	余弦相似度
语言	波斯语

📄 许可证

本项目采用 Apache-2.0 许可证。

📖 引用

如果你使用了本模型，请按照以下格式引用：

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup}, 
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}