PhoRanker开源模型 - 免费部署高效分类排序越南语文本

首页

Phoranker

由 itdainb 开发

PhoRanker 是一个用于越南语文本排序的跨编码器模型，能够高效分类和排序越南语文本。

文本嵌入

Transformers

其他开源协议:Apache-2.0 #越南语文本排序 #跨编码器模型 #高精度NDCG

下载量 4,063

发布时间 : 5/29/2024

模型简介

PhoRanker 是一个专为越南语设计的跨编码器模型，用于文本排序任务，能够根据相关性对文本进行高效分类和排序。

模型特点

高效文本排序

能够快速准确地对越南语文本进行排序和分类。

跨编码器架构

采用跨编码器架构，能够同时处理查询和文档，提高排序准确性。

高性能

在 MS MMarco Passage Reranking - Vi - Dev 数据集上表现优异，优于其他同类模型。

模型能力

越南语文本排序

文本相关性分类

高效文本处理

使用案例

信息检索

文档检索

用于检索与查询相关的文档，提高搜索结果的相关性。

在 MS MMarco Passage Reranking - Vi - Dev 数据集上 NDCG@10 达到 0.7422。

问答系统

答案排序

对问答系统中的候选答案进行排序，优先显示最相关的答案。

🚀 PhoRanker：越南语文本排序跨编码器模型

PhoRanker 是一个用于越南语文本排序的跨编码器模型，它能对文本进行高效分类和排序，在相关任务中表现出色，可基于不同库灵活使用。

🚀 快速开始

本项目提供了一个用于越南语文本排序的跨编码器模型，下面将详细介绍其安装、预处理和使用方法。

📦 安装指南

安装 `VnCoreNLP` 进行分词

pip install py_vncorenlp

安装 `sentence-transformers`（推荐）

pip install sentence-transformers

安装 `transformers`（可选）

pip install transformers

💻 使用示例

预处理

import py_vncorenlp
py_vncorenlp.download_model(save_dir='/absolute/path/to/vncorenlp')
rdrsegmenter = py_vncorenlp.VnCoreNLP(annotators=["wseg"], save_dir='/absolute/path/to/vncorenlp')

query = "Trường UIT là gì?"
sentences = [
    "Trường Đại học Công nghệ Thông tin có tên tiếng Anh là University of Information Technology (viết tắt là UIT) là thành viên của Đại học Quốc Gia TP.HCM.",
    "Trường Đại học Kinh tế – Luật (tiếng Anh: University of Economics and Law – UEL) là trường đại học đào tạo và nghiên cứu khối ngành kinh tế, kinh doanh và luật hàng đầu Việt Nam.",
    "Quĩ uỷ thác đầu tư (tiếng Anh: Unit Investment Trusts; viết tắt: UIT) là một công ty đầu tư mua hoặc nắm giữ một danh mục đầu tư cố định"
]

tokenized_query = rdrsegmenter.word_segment(query)
tokenized_sentences = [rdrsegmenter.word_segment(sent) for sent in sentences]

tokenized_pairs = [[tokenized_query, sent] for sent in tokenized_sentences]

MODEL_ID = 'itdainb/PhoRanker'
MAX_LENGTH = 256

使用 `sentence-transformers`

from sentence_transformers import CrossEncoder
model = CrossEncoder(MODEL_ID, max_length=MAX_LENGTH)

# For fp16 usage
model.model.half()

scores = model.predict(tokenized_pairs)

# 0.982, 0.2444, 0.9253
print(scores)

使用 `transformers`

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained(MODEL_ID)
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)

# For fp16 usage
model.half()

features = tokenizer(tokenized_pairs, padding=True, truncation="longest_first", return_tensors="pt", max_length=MAX_LENGTH)

model.eval()
with torch.no_grad():
    model_predictions = model(**features, return_dict=True)

    logits = model_predictions.logits
    logits = torch.nn.Sigmoid()(logits)
    scores = [logit[0] for logit in logits]

# 0.9819, 0.2444, 0.9253
print(scores)

📚 详细文档

性能表现

以下表格展示了各种预训练的跨编码器在 MS MMarco Passage Reranking - Vi - Dev 数据集上的性能：

模型名称	NDCG@3	MRR@3	NDCG@5	MRR@5	NDCG@10	MRR@10	每秒处理文档数
itdainb/PhoRanker	0.6625	0.6458	0.7147	0.6731	0.7422	0.6830	15
amberoad/bert-multilingual-passage-reranking-msmarco	0.4634	0.5233	0.5041	0.5383	0.5416	0.5523	22
kien-vu-uet/finetuned-phobert-passage-rerank-best-eval	0.0963	0.0883	0.1396	0.1131	0.1681	0.1246	15
BAAI/bge-reranker-v2-m3	0.6087	0.5841	0.6513	0.6062	0.6872	0.62091	3.51
BAAI/bge-reranker-v2-gemma	0.6088	0.5908	0.6446	0.6108	0.6785	0.6249	1.29

注意：运行时间是在配备 fp16 的 A100 GPU 上计算得出的。

支持项目

如果你觉得这个项目有用，并希望支持其持续开发，可以通过以下几种方式提供帮助：

给仓库加星：如果你认可这个项目，请给它加星。你的支持将鼓励项目持续发展和改进。
贡献代码：欢迎贡献代码！你可以通过报告问题、提交拉取请求或提出新功能建议来提供帮助。
分享项目：将这个项目分享给你的同事、朋友或社区。了解的人越多，项目就能吸引更多的反馈和贡献。
请我喝咖啡：如果你想提供资金支持，可以考虑进行捐赠。你可以通过以下方式捐赠：
- Momo：0948798843
- BIDV 银行：DAINB
- Paypal：0948798843

引用

请按以下格式引用本项目：

@misc{PhoRanker,
  title={PhoRanker: A Cross-encoder Model for Vietnamese Text Ranking},
  author={Dai Nguyen Ba ({ORCID:0009-0008-8559-3154})},
  year={2024},
  publisher={Huggingface},
  journal={huggingface repository},
  howpublished={\url{https://huggingface.co/itdainb/PhoRanker}},
}