ko-reranker-8k开源文本排序模型 - 用韩语数据微调，精准排序文本内容

首页

Ko Reranker 8k

由 upskyy 开发

基于BAAI/bge-reranker-v2-m3模型，使用韩语数据微调后的文本排序模型

文本嵌入

Transformers

支持多种语言开源协议:Apache-2.0 #韩语重排序 #多语言支持 #高精度相关性评分

下载量 14

发布时间 : 8/16/2024

模型简介

该模型是一个文本排序模型，专门针对韩语和多语言文本进行优化，能够计算查询语句与文本段落之间的相关性分数。

模型特点

韩语优化

使用韩语数据微调，特别适合韩语文本排序任务

多语言支持

除韩语外，还支持多种语言

高效计算

支持FP16加速计算，提高处理效率

分数归一化

可选项将相关性分数映射到0-1范围，便于比较

模型能力

文本相关性评分

多语言文本处理

查询-段落匹配

使用案例

信息检索

搜索引擎结果排序

对搜索引擎返回的结果进行相关性排序

提高搜索结果的相关性

问答系统

从候选答案中选择最相关的回答

提高问答系统的准确性

内容推荐

新闻推荐

根据用户查询推荐最相关的新闻内容

提升内容推荐的精准度

🚀 upskyy/ko-reranker-8k

ko-reranker-8k是在BAAI/bge-reranker-v2-m3模型的基础上，使用韩语数据进行微调得到的模型。

🚀 快速开始

📦 安装指南

使用FlagEmbedding

pip install -U FlagEmbedding

💻 使用示例

基础用法

使用FlagEmbedding获取相关性分数（分数越高表示相关性越强）：

from FlagEmbedding import FlagReranker


reranker = FlagReranker('upskyy/ko-reranker-8k', use_fp16=True) # 将use_fp16设置为True可以在略微降低性能的情况下加快计算速度

score = reranker.compute_score(['query', 'passage'])
print(score) # -8.3828125

# 你可以通过设置"normalize=True"将分数映射到0-1之间，这将对分数应用sigmoid函数
score = reranker.compute_score(['query', 'passage'], normalize=True)
print(score) # 0.000228713314721116

scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']])
print(scores) # [-11.2265625, 8.6875]

# 你可以通过设置"normalize=True"将分数映射到0-1之间，这将对分数应用sigmoid函数
scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']], normalize=True)
print(scores) # [1.3315579521758342e-05, 0.9998313472460109]

使用Huggingface transformers获取相关性分数（分数越高表示相关性越强）：

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer


tokenizer = AutoTokenizer.from_pretrained('upskyy/ko-reranker-8k')
model = AutoModelForSequenceClassification.from_pretrained('upskyy/ko-reranker-8k')
model.eval()

pairs = [['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']]
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

📚 详细文档

引用

@misc{li2023making,
      title={Making Large Language Models A Better Foundation For Dense Retrieval}, 
      author={Chaofan Li and Zheng Liu and Shitao Xiao and Yingxia Shao},
      year={2023},
      eprint={2312.15503},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@misc{chen2024bge,
      title={BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation}, 
      author={Jianlv Chen and Shitao Xiao and Peitian Zhang and Kun Luo and Defu Lian and Zheng Liu},
      year={2024},
      eprint={2402.03216},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}