语言:
- 波斯语
模型库名称: sentence-transformers
标签:
- sentence-transformers
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:96546
- 损失函数:SoftmaxLoss
基础模型: HooshvareLab/bert-base-parsbert-uncased
数据集:
- Gholamreza/pquad
小部件示例:
- 源句子: 那些体格健壮的沉重马匹被称为什么?
候选句子:
-
披头士乐队以全球约6亿张唱片销量成为有史以来最畅销的音乐艺术家。该乐队于1988年入驻摇滚名人堂,四位核心成员在1994至2015年间也分别以个人身份入选。他们共获得7项格莱美奖、4项全英音乐奖、1项奥斯卡奖(1970年电影《顺其自然》最佳原创歌曲奖)以及15项艾弗·诺维洛奖。《时代》杂志将其列为20世纪百大人物,《滚石》杂志在其百大艺术家榜单中将其列为首位。
-
体格健壮的沉重马匹被称为"冷血马"。人们因其肌肉力量与温顺耐劳的特性而培育它们,曾广泛用于搬运重物。这类马匹有时也被称作"高贵的巨人",比利时重挽马和克莱兹代尔马是典型代表。部分品种如佩尔什马更为轻巧敏捷,适合干旱地区耕作;而夏尔马等品种则更为沉稳强壮,适用于黏土质土壤耕作。某些小型马也属于冷血马范畴。
-
早期飞机直至一战期间普遍采用桁架式机身结构(Truss)。如今自制飞机和模型飞机仍广泛使用这种结构,因其简单、轻量且坚固,可用木梁构建。此类结构中主要受力由框架承担,外壳仅维持气动外形。主体框架由纵向梁、斜向梁、横向框架和支撑缆绳组成。莱特兄弟制造的首批可控飞机便采用了这种机身结构。
任务类型: 句子相似度
许可证: apache-2.0
新版本: myrkur/sentence-transformer-parsbert-fa-2.0
基于HooshvareLab/bert-base-parsbert-uncased的SentenceTransformer模型
本sentence-transformers模型基于HooshvareLab/bert-base-parsbert-uncased微调,专为增强检索增强生成(RAG)系统设计。该模型将句子和段落映射到768维稠密向量空间,在问答系统、聊天机器人和内容生成等应用中能高效检索上下文相关信息,生成准确连贯的响应。
模型详情
模型描述
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
使用方式
直接使用(Sentence Transformers)
首先安装Sentence Transformers库:
pip install -U sentence-transformers
加载模型并运行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("myrkur/sentence-transformer-parsbert-fa")
sentences = [
'葡萄牙语在发源地葡萄牙约有1000万使用者。作为巴西官方语言,该国及邻国(巴拉圭东部和乌拉圭北部)使用者超2亿,占南美人口半数以上,是单一国家中使用者最多的罗曼语。该语言在六个非洲国家(安哥拉、佛得角、几内亚比绍、莫桑比克、赤道几内亚及圣多美和普林西比)具有官方地位,非洲大陆约3000万母语者。在亚洲,葡萄牙语与其它语言共同作为东帝汶和澳门的官方语言,而亚洲多数葡语使用者(约40万)是日籍巴西归侨。北美地区有100万母语者。在东帝汶使用者的加持下,葡萄牙语成为大洋洲使用人数第二多的罗曼语(仅次于法语)。其最近亲属加利西亚语与西班牙语同为西班牙加利西亚自治区的官方语言。',
'约公元前几世纪末,游牧的斯基泰人开始向帕提亚帝国东部边境推进?',
'阿巴斯·贾迪迪是谁?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
在检索增强生成(RAG)系统中的应用
检索增强生成(RAG)系统结合检索与生成技术提升响应质量。本模型可有效从大规模语料库中检索相关信息,用于生成更精准的上下文响应。集成步骤如下:
安装必要库:
pip install -U sentence-transformers transformers
from sentence_transformers import SentenceTransformer, util
import torch
model = SentenceTransformer("myrkur/sentence-transformer-parsbert-fa")
corpus = [
'葡萄牙语在发源地葡萄牙约有1000万使用者...',
'帕提亚帝国统治伊朗约两个世纪...',
'阿巴斯·贾迪迪是伊朗前摔跤运动员...',
]
corpus_embeddings = model.encode(corpus, convert_to_tensor=True)
检索相关信息:
针对用户查询,从语料库检索最相关文档:
query = "阿巴斯·贾迪迪是谁?"
query_embedding = model.encode(query, convert_to_tensor=True)
top_k = 5
hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=top_k)
hits = hits[0]
for hit in hits:
print(f"相似度: {hit['score']:.4f}")
print(corpus[hit['corpus_id']])
结论
本句子转换器模型是强大的NLP工具,特别适用于检索增强生成系统,能显著提升信息检索与生成的准确性和上下文相关性。
联系方式
如有疑问或需要进一步信息,请联系: