模型介绍
内容详情
替代品
模型简介
该模型是基于RoBERTa架构的双语(俄语-英语)文本处理模型,在多种文本分类和检索任务上表现良好,支持多标签分类、聚类和重新排序等任务
模型特点
双语支持
同时支持俄语和英语文本处理
多任务适应
在分类、聚类和重新排序等多种任务上表现良好
高效检索
在MIRACL俄语检索任务上表现出色
模型能力
文本分类
多标签分类
文本聚类
信息检索
文本重新排序
使用案例
内容分类
新闻标题分类
对新闻标题进行分类
在HeadlineClassification数据集上达到78%准确率
电影评论情感分析
分析电影评论的情感倾向
在KinopoiskClassification数据集上达到63.27%准确率
信息检索
俄语文档检索
俄语文档的检索和重新排序
在MIRACL俄语检索任务上NDCG@10达到56.912
model-index:
- name: ru-en-RoSBERTa
results:
- dataset:
config: default
name: MTEB CEDRClassification (default)
revision: c0ba03d058e3e1b2f3fd20518875a4563dd12db4
split: test
type: ai-forever/cedr-classification
metrics:
- type: accuracy value: 44.68650371944739
- type: f1 value: 40.7601061886426
- type: lrap value: 70.69633368756747
- type: main_score value: 44.68650371944739 task: type: MultilabelClassification
- dataset:
config: default
name: MTEB GeoreviewClassification (default)
revision: 3765c0d1de6b7d264bc459433c45e5a75513839c
split: test
type: ai-forever/georeview-classification
metrics:
- type: accuracy value: 49.697265625
- type: f1 value: 47.793186725286866
- type: f1_weighted value: 47.79131720298068
- type: main_score value: 49.697265625 task: type: Classification
- dataset:
config: default
name: MTEB GeoreviewClusteringP2P (default)
revision: 97a313c8fc85b47f13f33e7e9a95c1ad888c7fec
split: test
type: ai-forever/georeview-clustering-p2p
metrics:
- type: main_score value: 65.42249614873316
- type: v_measure value: 65.42249614873316
- type: v_measure_std value: 0.8524815312312278 task: type: Clustering
- dataset:
config: default
name: MTEB HeadlineClassification (default)
revision: 2fe05ee6b5832cda29f2ef7aaad7b7fe6a3609eb
split: test
type: ai-forever/headline-classification
metrics:
- type: accuracy value: 78.0029296875
- type: f1 value: 77.95151940601424
- type: f1_weighted value: 77.95054643947716
- type: main_score value: 78.0029296875 task: type: Classification
- dataset:
config: default
name: MTEB InappropriatenessClassification (default)
revision: 601651fdc45ef243751676e62dd7a19f491c0285
split: test
type: ai-forever/inappropriateness-classification
metrics:
- type: accuracy value: 61.32324218750001
- type: ap value: 57.11029460364367
- type: ap_weighted value: 57.11029460364367
- type: f1 value: 60.971337406307214
- type: f1_weighted value: 60.971337406307214
- type: main_score value: 61.32324218750001 task: type: Classification
- dataset:
config: default
name: MTEB KinopoiskClassification (default)
revision: 5911f26666ac11af46cb9c6849d0dc80a378af24
split: test
type: ai-forever/kinopoisk-sentiment-classification
metrics:
- type: accuracy value: 63.27333333333334
- type: f1 value: 61.007042785228116
- type: f1_weighted value: 61.007042785228116
- type: main_score value: 63.27333333333334 task: type: Classification
- dataset:
config: ru
name: MTEB MIRACLReranking (ru)
revision: 6d1962c527217f8927fca80f890f14f36b2802af
split: dev
type: miracl/mmteb-miracl-reranking
metrics:
- type: MAP@1(MIRACL) value: 30.691000000000003
- type: MAP@10(MIRACL) value: 49.178
- type: MAP@100(MIRACL) value: 51.225
- type: MAP@1000(MIRACL) value: 51.225
- type: MAP@20(MIRACL) value: 50.613
- type: MAP@3(MIRACL) value: 42.457
- type: MAP@5(MIRACL) value: 46.172000000000004
- type: NDCG@1(MIRACL) value: 51.002
- type: NDCG@10(MIRACL) value: 56.912
- type: NDCG@100(MIRACL) value: 61.197
- type: NDCG@1000(MIRACL) value: 61.197
- type: NDCG@20(MIRACL) value: 59.453
- type: NDCG@3(MIRACL) value: 51.083
- type: NDCG@5(MIRACL) value: 53.358000000000004
- type: P@1(MIRACL) value: 51.002
- type: P@10(MIRACL) value: 14.852000000000002
- type: P@100(MIRACL) value: 1.9529999999999998
- type: P@1000(MIRACL) value: 0.19499999999999998
- type: P@20(MIRACL) value: 8.657
- type: P@3(MIRACL) value: 31.435000000000002
- type: P@5(MIRACL) value: 23.608999999999998
- type: Recall@1(MIRACL) value: 30.691000000000003
- type: Recall@10(MIRACL) value: 67.006
- type: Recall@100(MIRACL) value: 79.952
- type: Recall@1000(MIRACL) value: 79.952
- type: Recall@20(MIRACL) value: 73.811
- type: Recall@3(MIRACL) value: 49.142
- type: Recall@5(MIRACL) value: 57.553
- type: main_score value: 56.912
- type: nAUC_MAP@1000_diff1(MIRACL) value: 10.786403475779332
- type: nAUC_MAP@1000_max(MIRACL) value: 29.477246196287275
- type: nAUC_MAP@1000_std(MIRACL) value: 15.938834129839046
- type: nAUC_MAP@100_diff1(MIRACL) value: 10.786403475779332
- type: nAUC_MAP@100_max(MIRACL) value: 29.477246196287275
- type: nAUC_MAP@100_std(MIRACL) value: 15.938834129839046
- type: nAUC_MAP@10_diff1(MIRACL) value: 12.255091348037595
- type: nAUC_MAP@10_max(MIRACL) value: 26.72625370045134
- type: nAUC_MAP@10_std(MIRACL) value: 14.180071586837812
- type: nAUC_MAP@1_diff1(MIRACL) value: 28.616487922173768
- type: nAUC_MAP@1_max(MIRACL) value: 12.986192530664518
- type: nAUC_MAP@1_std(MIRACL) value: 4.086145762604503
- type: nAUC_MAP@20_diff1(MIRACL) value: 11.360341572700476
- type: nAUC_MAP@20_max(MIRACL) value: 28.612330384153832
- type: nAUC_MAP@20_std(MIRACL) value: 15.787480742877937
- type: nAUC_MAP@3_diff1(MIRACL) value: 18.033783954867623
- type: nAUC_MAP@3_max(MIRACL) value: 20.97092332905034
- type: nAUC_MAP@3_std(MIRACL) value: 9.106058710108279
- type: nAUC_MAP@5_diff1(MIRACL) value: 14.784231238848433
- type: nAUC_MAP@5_max(MIRACL) value: 23.841145797143
- type: nAUC_MAP@5_std(MIRACL) value: 11.25686258970321
- type: nAUC_NDCG@1000_diff1(MIRACL) value: 1.4728095471561125
- type: nAUC_NDCG@1000_max(MIRACL) value: 39.84262968697792
- type: nAUC_NDCG@1000_std(MIRACL) value: 22.4186410243652
- type: nAUC_NDCG@100_diff1(MIRACL) value: 1.4728095471561125
- type: nAUC_NDCG@100_max(MIRACL) value: 39.84262968697792
- type: nAUC_NDCG@100_std(MIRACL) value: 22.4186410243652
- type: nAUC_NDCG@10_diff1(MIRACL) value: 5.242996478950954
- type: nAUC_NDCG@10_max(MIRACL) value: 33.86925934510759
- type: nAUC_NDCG@10_std(MIRACL) value: 19.457386638149625
- type: nAUC_NDCG@1_diff1(MIRACL) value: 16.925455715967676
- type: nAUC_NDCG@1_max(MIRACL) value: 36.72266755084653
- type: nAUC_NDCG@1_std(MIRACL) value: 18.357456476212622
- type: nAUC_NDCG@20_diff1(MIRACL) value: 3.361697278095995
- type: nAUC_NDCG@20_max(MIRACL) value: 37.38923489423496
- type: nAUC_NDCG@20_std(MIRACL) value: 22.29168372402657
- type: nAUC_NDCG@3_diff1(MIRACL) value: 10.936904314592084
- type: nAUC_NDCG@3_max(MIRACL) value: 30.547718047674284
- type: nAUC_NDCG@3_std(MIRACL) value: 15.142352896765665
- type: nAUC_NDCG@5_diff1(MIRACL) value: 8.618074920961075
- type: nAUC_NDCG@5_max(MIRACL) value: 30.808600807482367
- type: nAUC_NDCG@5_std(MIRACL) value: 15.793512242130051
- type: nAUC_P@1000_diff1(MIRACL) value: -24.81839490148569
- type: nAUC_P
- dataset:
config: default
name: MTEB CEDRClassification (default)
revision: c0ba03d058e3e1b2f3fd20518875a4563dd12db4
split: test
type: ai-forever/cedr-classification
metrics:
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文