Jina Reranker V2 Base Multilingual Wiki Tr Rag Prefix
J
Jina Reranker V2 Base Multilingual Wiki Tr Rag Prefix
由 SMARTICT 开发
基于jina-reranker-v2-base-multilingual微调的交叉编码器模型,用于文本重排序和语义搜索
下载量 173
发布时间 : 4/15/2025
模型简介
这是一个基于jina-reranker-v2-base-multilingual微调的交叉编码器模型,能够计算文本对的匹配分数,主要用于文本重排序和语义搜索任务。
模型特点
多语言支持
基于多语言基础模型,支持多种语言的文本重排序
高性能重排序
在多个评估数据集上表现出色,特别是在gooaq开发集上达到0.9386的nDCG@10
长文本处理
支持最大1024个标记的序列长度,适合处理较长文本
模型能力
文本对匹配评分
语义搜索重排序
多语言文本处理
使用案例
信息检索
问答系统重排序
对问答系统中的候选答案进行重排序,提高正确答案的排名
在NanoNQ数据集上达到0.6937的平均精度
文档检索
对搜索引擎返回的文档进行重排序,提高相关性
在NanoMSMARCO数据集上达到0.5847的平均精度
推荐系统
内容推荐
对推荐内容进行相关性排序,提高推荐质量
🚀 jina-reranker-v2-base-multilingual 测试
这是一个基于 Cross Encoder 的模型,它使用 sentence-transformers 库从 jinaai/jina-reranker-v2-base-multilingual 微调而来。该模型可以计算文本对的得分,可用于文本重排序和语义搜索。
🚀 快速开始
本模型是一个基于 Cross Encoder 的微调模型,使用 sentence-transformers 库进行开发。它能够为文本对计算得分,在文本重排序和语义搜索等任务中发挥作用。
✨ 主要特性
- 基于 Cross Encoder 架构,可有效计算文本对的相关性得分。
- 从预训练模型微调而来,具备良好的泛化能力。
- 支持文本重排序和语义搜索任务。
📦 安装指南
安装 Sentence Transformers 库
首先,你需要安装 Sentence Transformers 库:
pip install -U sentence-transformers
💻 使用示例
基础用法
安装好库后,你可以加载模型并进行推理:
from sentence_transformers import CrossEncoder
# 从 🤗 Hub 下载模型
model = CrossEncoder("SMARTICT/jina-reranker-v2-base-multilingual-wiki-tr-rag-prefix")
# 获取文本对的得分
pairs = [
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.'],
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.'],
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.'],
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Taşıma kuvveti, bir cismin havada yukarı doğru kaldırılmasına neden olan kuvvettir. Direnç kuvveti ise cismin hareketini yavaşlatan, ona karşı koyan kuvvettir. Hava taşımacılığında her iki kuvvet de önemlidir. Uçaklar uçabilmek için yeterli taşıma kuvveti üretmelidir. Ancak aynı zamanda direnci minimize etmek için tasarlanırlar çünkü direnç yakıt tüketimini artırır. Kara taşıtlarında ise düşük hızlarda direnç kuvveti ön plandadır. Ancak yüksek hızlarda, örneğin Formula 1 araçlarında, taşıma kuvveti de önemli hale gelir çünkü aracın yol tutuşunu sağlar.'],
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Evet, yazıda da belirtildiği gibi kuvvet makineleri yakıt kullanan ısı makineleri ve doğal enerji kaynaklarını kullanan makinelere ayrılır. Örneğin, araçlarda kullanılan motorlar ısı makineleridir çünkü benzin veya dizel yakıtı kullanarak mekanik enerji üretirler. Rüzgar türbinleri ise rüzgarın kinetik enerjisini elektrik enerjisine dönüştüren doğal enerji kaynaklı kuvvet makineleridir.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)
高级用法
你还可以根据单个文本与其他文本的相似度对它们进行排序:
# 根据与单个文本的相似度对不同文本进行排序
ranks = model.rank(
'query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?',
[
'passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.',
'passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.',
'passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.',
'passage: Taşıma kuvveti, bir cismin havada yukarı doğru kaldırılmasına neden olan kuvvettir. Direnç kuvveti ise cismin hareketini yavaşlatan, ona karşı koyan kuvvettir. Hava taşımacılığında her iki kuvvet de önemlidir. Uçaklar uçabilmek için yeterli taşıma kuvveti üretmelidir. Ancak aynı zamanda direnci minimize etmek için tasarlanırlar çünkü direnç yakıt tüketimini artırır. Kara taşıtlarında ise düşük hızlarda direnç kuvveti ön plandadır. Ancak yüksek hızlarda, örneğin Formula 1 araçlarında, taşıma kuvveti de önemli hale gelir çünkü aracın yol tutuşunu sağlar.',
'passage: Evet, yazıda da belirtildiği gibi kuvvet makineleri yakıt kullanan ısı makineleri ve doğal enerji kaynaklarını kullanan makinelere ayrılır. Örneğin, araçlarda kullanılan motorlar ısı makineleridir çünkü benzin veya dizel yakıtı kullanarak mekanik enerji üretirler. Rüzgar türbinleri ise rüzgarın kinetik enerjisini elektrik enerjisine dönüştüren doğal enerji kaynaklı kuvvet makineleridir.',
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
📚 详细文档
模型详情
模型描述
属性 | 详情 |
---|---|
模型类型 | Cross Encoder |
基础模型 | jinaai/jina-reranker-v2-base-multilingual |
最大序列长度 | 1024 个标记 |
输出标签数量 | 1 个标签 |
许可证 | apache-2.0 |
模型来源
- 文档:Sentence Transformers 文档
- 文档:Cross Encoder 文档
- 仓库:GitHub 上的 Sentence Transformers
- Hugging Face:Hugging Face 上的 Cross Encoders
评估
指标
Cross Encoder 重排序(gooaq-dev
数据集)
- 数据集:
gooaq-dev
- 使用
CrossEncoderRerankingEvaluator
进行评估,参数如下:{ "at_k": 10, "always_rerank_positives": false }
指标 | 值 |
---|---|
map | 0.9094 (-0.0382) |
mrr@10 | 0.9248 (-0.0228) |
ndcg@10 | 0.9386 (-0.0118) |
Cross Encoder 重排序(NanoMSMARCO_R100
, NanoNFCorpus_R100
和 NanoNQ_R100
数据集)
- 数据集:
NanoMSMARCO_R100
,NanoNFCorpus_R100
和NanoNQ_R100
- 使用
CrossEncoderRerankingEvaluator
进行评估,参数如下:{ "at_k": 10, "always_rerank_positives": true }
指标 | NanoMSMARCO_R100 | NanoNFCorpus_R100 | NanoNQ_R100 |
---|---|---|---|
map | 0.5847 (+0.0951) | 0.4027 (+0.1417) | 0.6937 (+0.2741) |
mrr@10 | 0.5880 (+0.1105) | 0.6892 (+0.1894) | 0.7346 (+0.3079) |
ndcg@10 | 0.6644 (+0.1240) | 0.4778 (+0.1527) | 0.7569 (+0.2562) |
Cross Encoder Nano BEIR(NanoBEIR_R100_mean
数据集)
- 数据集:
NanoBEIR_R100_mean
- 使用
CrossEncoderNanoBEIREvaluator
进行评估,参数如下:{ "dataset_names": [ "msmarco", "nfcorpus", "nq" ], "rerank_k": 100, "at_k": 10, "always_rerank_positives": true }
指标 | 值 |
---|---|
map | 0.5604 (+0.1703) |
mrr@10 | 0.6706 (+0.2026) |
ndcg@10 | 0.6330 (+0.1776) |
训练详情
训练数据集
未命名数据集
- 大小:26,004 个训练样本
- 列:
question
,answer
和label
- 基于前 1000 个样本的近似统计信息:
| | 问题 | 答案 | 标签 |
|------|------|------|------|
| 类型 | 字符串 | 字符串 | 整数 |
| 详情 |
- 最小:27 个字符
- 平均:78.97 个字符
- 最大:182 个字符
- 最小:44 个字符
- 平均:273.24 个字符
- 最大:836 个字符
- 0:~81.00%
- 1:~19.00%
- 样本:
| 问题 | 答案 | 标签 |
|------|------|------|
|
query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?
|passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.
|1
| |query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?
|passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.
|0
| |query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?
|passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.
|0
| - 损失函数:
BinaryCrossEntropyLoss
,参数如下:{ "activation_fn": "torch.nn.modules.linear.Identity", "pos_weight": 5 }
训练超参数
非默认超参数
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16learning_rate
: 2e-05num_train_epochs
: 2warmup_ratio
: 0.1bf16
: Truedataloader_num_workers
: 4load_best_model_at_end
: True
所有超参数
点击展开
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 2max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 4dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size
: 0fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
训练日志
轮次 | 步骤 | 训练损失 | gooaq-dev_ndcg@10 | NanoMSMARCO_R100_ndcg@10 | NanoNFCorpus_R100_ndcg@10 | NanoNQ_R100_ndcg@10 | NanoBEIR_R100_mean_ndcg@10 |
---|---|---|---|---|---|---|---|
-1 | -1 | - | 0.9555 (+0.0050) | 0.6801 (+0.1397) | 0.4668 (+0.1417) | 0.7932 (+0.2925) | 0.6467 (+0.1913) |
0.0006 | 1 | 0.2737 | - | - | - | - | - |
0.6150 | 1000 | 0.0997 | - | - | - | - | - |
1.2300 | 2000 | 0.019 | - | - | - | - | - |
1.8450 | 3000 | 0.0202 | - | - | - | - | - |
-1 | -1 | - | 0.9386 (-0.0118) | 0.6644 (+0.1240) | 0.4778 (+0.1527) | 0.7569 (+0.2562) | 0.6330 (+0.1776) |
框架版本
- Python: 3.11.12
- Sentence Transformers: 4.0.2
- Transformers: 4.51.1
- PyTorch: 2.6.0+cu124
- Accelerate: 1.5.2
- Datasets: 3.5.0
- Tokenizers: 0.21.1
📄 许可证
本模型使用 apache-2.0 许可证。
📖 引用
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文