polish - cross - encoder开源模型 - 免费实现波兰语文本排序与句子相似度计算

首页

Polish Cross Encoder

由 radlab 开发

这是一个基于波兰语的交叉编码器模型，用于文本排序和句子相似度计算。

文本嵌入

Transformers

其他#波兰语文本排序 #问答相关性评分 #跨编码器架构

下载量 4,106

发布时间 : 12/3/2023

模型简介

该模型基于波兰语RoBERTa-large-v2架构，专门用于处理波兰语文本的排序和相似度任务。

模型特点

波兰语优化

专门针对波兰语文本进行优化，在波兰语任务上表现优异

交叉编码架构

采用交叉编码器架构，能够更准确地计算句子对之间的相关性

句子相似度计算

能够有效计算两个波兰语句子之间的语义相似度

模型能力

文本排序

句子相似度计算

波兰语文本处理

使用案例

信息检索

问答系统答案排序

对候选答案进行相关性排序，找出最匹配问题的答案

如示例所示，能有效区分不同答案的相关性

法律文本处理

法律文件相关性判断

判断法律文档与查询问题的相关性

如示例所示，能准确识别与判决相关的文本

🚀 波兰语文本排序模型

该项目是一个用于文本排序的模型，基于句子转换器技术，能够有效处理波兰语的文本相似度和特征提取任务，为相关的自然语言处理应用提供支持。

🚀 快速开始

此模型主要用于文本排序任务，以下是使用该模型的示例代码：

💻 使用示例

基础用法

from sentence_transformers.cross_encoder import CrossEncoder

model_path = "radlab/polish-cross-encoder"
model = CrossEncoder(model_path)


questions = [
    "Jaką mamy dziś pogodę? bo Andrzej nic nie mówił.",
    "Gdzie jedzie Andrzej? Bo wczoraj był w Warszawie.",
    "Czy oskarżony się zgadza z przedstawionym wyrokiem?",
]
answers = [
    "Pan Andrzej siedzi w pociągu i jedzie do Wiednia. Ogląda na telefonie zabawne filmiki.",
    "Poada deszcz i jest wilgotno, jednak wczoraj było słonecznie.",
    "Wyrok jest prawomocny i nie podlega dalszym rozważaniom.",
]
for question in questions:
    context_with_question = [(s, question) for s in answers]
    results = sorted(
        {
            idx: r for idx, r in enumerate(model.predict(context_with_question))
        }.items(),
        key=lambda x: x[1],
        reverse=True,
    )

    print(f"QUESTION: {question}")
    print("ANSWERS (sorted):")
    for idx, score in results:
        print(f"\t[{score}]\t{answers[idx]}")
    print("")

示例输出

QUESTION: Jaką mamy dziś pogodę? bo Andrzej nic nie mówił.
ANSWERS (sorted):
        [0.016749681904911995]  Poada deszcz i jest wilgotno, jednak wczoraj było słonecznie.
        [0.01602918468415737]   Pan Andrzej siedzi w pociągu i jedzie do Wiednia. Ogląda na telefonie zabawne filmiki.
        [0.016013670712709427]  Wyrok jest prawomocny i nie podlega dalszym rozważaniom.

QUESTION: Gdzie jedzie Andrzej? Bo wczoraj był w Warszawie.
ANSWERS (sorted):
        [0.5997582674026489]    Pan Andrzej siedzi w pociągu i jedzie do Wiednia. Ogląda na telefonie zabawne filmiki.
        [0.4528200924396515]    Wyrok jest prawomocny i nie podlega dalszym rozważaniom.
        [0.17350871860980988]   Poada deszcz i jest wilgotno, jednak wczoraj było słonecznie.

QUESTION: Czy oskarżony się zgadza z przedstawionym wyrokiem?
ANSWERS (sorted):
        [0.8431766629219055]    Wyrok jest prawomocny i nie podlega dalszym rozważaniom.
        [0.6823258996009827]    Poada deszcz i jest wilgotno, jednak wczoraj było słonecznie.
        [0.558414101600647]     Pan Andrzej siedzi w pociągu i jedzie do Wiednia. Ogląda na telefonie zabawne filmiki.

📄 许可证

本项目采用CC BY-SA 4.0许可证。

📚 详细文档

模型信息

属性	详情
模型类型	文本排序模型
训练数据	radlab/polish-sts-dataset
基础模型	sdadas/polish-roberta-large-v2
库名称	sentence-transformers
标签	sentence-transformers、feature-extraction、sentence-similarity、transformers
适用语言	波兰语