高性能的阿拉伯语信息检索模型,基于sentence-transformers框架构建,针对阿拉伯语的丰富性和复杂性进行了优化。
下载量 366
发布时间 : 12/3/2024
模型介绍
内容详情
替代品
模型简介
这是一个专注于阿拉伯语信息检索的模型,提供最先进的性能,并针对阿拉伯语的细微差别和方言进行了优化。适用于搜索引擎、聊天机器人等应用场景。
模型特点
卓越性能
与顶级多语言模型如e5-multilingual-large的准确性相当。
专注于阿拉伯语
专门为阿拉伯语的细微差别和方言设计,确保更准确和上下文感知的结果。
轻量高效
内存需求减少25%-50%,非常适合资源有限的环境或边缘部署。
模型能力
阿拉伯语信息检索
句子相似度计算
特征提取
使用案例
信息检索
阿拉伯语搜索引擎
用于构建高效的阿拉伯语搜索引擎,提供准确的查询结果。
在多个阿拉伯语检索基准测试中表现优异。
聊天机器人
用于阿拉伯语聊天机器人的上下文理解和响应生成。
能够准确理解阿拉伯语查询并提供相关响应。
base_model:
- aubmindlab/bert-base-arabertv02 language:
- ar model-index:
- name: omarelshehy/Arabic-Retrieval-v1.0
results:
- dataset:
config: ar
name: MTEB MIRACLRetrieval (ar)
revision: main
split: dev
type: miracl/mmteb-miracl
metrics:
- type: main_score value: 58.664
- type: map_at_1 value: 32.399
- type: map_at_10 value: 50.236000000000004
- type: map_at_100 value: 51.87199999999999
- type: map_at_1000 value: 51.926
- type: ndcg_at_1 value: 48.376999999999995
- type: ndcg_at_10 value: 58.664
- type: ndcg_at_100 value: 63.754999999999995
- type: ndcg_at_1000 value: 64.672
- type: ndcg_at_20 value: 61.111000000000004
- type: ndcg_at_3 value: 51.266
- type: ndcg_at_5 value: 54.529 task: type: Retrieval
- dataset:
config: ar
name: MTEB MIRACLRetrievalHardNegatives (ar)
revision: 95c8db7d4a6e9c1d8a60601afd63d553ae20a2eb
split: dev
type: mteb/miracl-hard-negatives
metrics:
- type: main_score value: 60.026
- type: map_at_1 value: 32.547
- type: map_at_10 value: 51.345
- type: map_at_100 value: 53.190000000000005
- type: map_at_1000 value: 53.237
- type: ndcg_at_1 value: 48.3
- type: ndcg_at_10 value: 60.026
- type: ndcg_at_100 value: 65.62400000000001
- type: ndcg_at_1000 value: 66.282
- type: ndcg_at_20 value: 62.856
- type: ndcg_at_3 value: 52.1
- type: ndcg_at_5 value: 55.627 task: type: Retrieval
- dataset:
config: ara-ara
name: MTEB MLQARetrieval (ara-ara)
revision: 397ed406c1a7902140303e7faf60fff35b58d285
split: test
type: facebook/mlqa
metrics:
- type: main_score value: 56.032000000000004
- type: map_at_1 value: 45.218
- type: map_at_10 value: 52.32599999999999
- type: map_at_100 value: 53.001
- type: map_at_1000 value: 53.047999999999995
- type: ndcg_at_1 value: 45.228
- type: ndcg_at_10 value: 56.032000000000004
- type: ndcg_at_100 value: 59.486000000000004
- type: ndcg_at_1000 value: 60.938
- type: ndcg_at_20 value: 57.507
- type: ndcg_at_3 value: 52.05800000000001
- type: ndcg_at_5 value: 54.005 task: type: Retrieval
- dataset:
config: ara-ara
name: MTEB MLQARetrieval (ara-ara)
revision: 397ed406c1a7902140303e7faf60fff35b58d285
split: validation
type: facebook/mlqa
metrics:
- type: main_score value: 71.11
- type: map_at_1 value: 58.221000000000004
- type: map_at_10 value: 67.089
- type: map_at_100 value: 67.62700000000001
- type: map_at_1000 value: 67.648
- type: ndcg_at_1 value: 58.221000000000004
- type: ndcg_at_10 value: 71.11
- type: ndcg_at_100 value: 73.824
- type: ndcg_at_1000 value: 74.292
- type: ndcg_at_20 value: 72.381
- type: ndcg_at_3 value: 67.472
- type: ndcg_at_5 value: 69.803 task: type: Retrieval
- dataset:
config: ar
name: MTEB MintakaRetrieval (ar)
revision: efa78cc2f74bbcd21eff2261f9e13aebe40b814e
split: test
type: jinaai/mintakaqa
metrics:
- type: main_score value: 22.778000000000002
- type: map_at_1 value: 13.345
- type: map_at_10 value: 19.336000000000002
- type: map_at_100 value: 20.116999999999997
- type: map_at_1000 value: 20.246
- type: ndcg_at_1 value: 13.345
- type: ndcg_at_10 value: 22.778000000000002
- type: ndcg_at_100 value: 26.997
- type: ndcg_at_1000 value: 31.564999999999998
- type: ndcg_at_20 value: 24.368000000000002
- type: ndcg_at_3 value: 18.622
- type: ndcg_at_5 value: 20.72 task: type: Retrieval
- dataset:
config: arabic
name: MTEB MrTidyRetrieval (arabic)
revision: fc24a3ce8f09746410daee3d5cd823ff7a0675b7
split: test
type: mteb/mrtidy
metrics:
- type: main_score value: 55.584999999999994
- type: map_at_1 value: 34.197
- type: map_at_10 value: 48.658
- type: map_at_100 value: 49.491
- type: map_at_1000 value: 49.518
- type: ndcg_at_1 value: 36.91
- type: ndcg_at_10 value: 55.584999999999994
- type: ndcg_at_100 value: 59.082
- type: ndcg_at_1000 value: 59.711000000000006
- type: ndcg_at_20 value: 57.537000000000006
- type: ndcg_at_3 value: 48.732
- type: ndcg_at_5 value: 52.834 task: type: Retrieval
- dataset:
config: default
name: MTEB SadeemQuestionRetrieval (default)
revision: 3cb0752b182e5d5d740df547748b06663c8e0bd9
split: test
type: sadeem-ai/sadeem-ar-eval-retrieval-questions
metrics:
- type: main_score value: 67.916
- type: map_at_1 value: 31.785999999999998
- type: map_at_10 value: 58.18600000000001
- type: map_at_100 value: 58.287
- type: map_at_1000 value: 58.29
- type: ndcg_at_1 value: 31.785999999999998
- type: ndcg_at_10 value: 67.916
- type: ndcg_at_100 value: 68.44200000000001
- type: ndcg_at_1000 value: 68.53399999999999
- type: ndcg_at_20 value: 68.11
- type: ndcg_at_3 value: 66.583
- type: ndcg_at_5 value: 67.5 task: type: Retrieval
- dataset:
config: ara-ara
name: MTEB XPQARetrieval (ara-ara)
revision: c99d599f0a6ab9b85b065da6f9d94f9cf731679f
split: test
type: jinaai/xpqa
metrics:
- type: main_score value: 43.622
- type: map_at_1 value: 19.236
- type: map_at_10 value: 37.047000000000004
- type: map_at_100 value: 38.948
- type: map_at_1000 value: 39.054
- type: ndcg_at_1 value: 35.333
- type: ndcg_at_10 value: 43.622
- type: ndcg_at_100 value: 50.761
- type: ndcg_at_1000 value: 52.932
- type: ndcg_at_20 value: 46.686
- type: ndcg_at_3 value: 37.482
- type: ndcg_at_5 value: 39.635999999999996 task: type: Retrieval tags:
- dataset:
config: ar
name: MTEB MIRACLRetrieval (ar)
revision: main
split: dev
type: miracl/mmteb-miracl
metrics:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- loss:MultipleNegativesRankingLoss
- retrieval
- mteb pipeline_tag: sentence-similarity library_name: sentence-transformers license: apache-2.0
🚀 Arabic-Retrieval-v1.0
这是一个高性能的阿拉伯语信息检索模型,基于强大的sentence-transformers框架构建,提供最先进的性能,并针对阿拉伯语的丰富性和复杂性进行了优化。
🔑 主要特点
- 🔥 卓越性能:与顶级多语言模型如
e5-multilingual-large
的准确性相当。详见评估 - 💡 专注于阿拉伯语:专门为阿拉伯语的细微差别和方言设计,确保更准确和上下文感知的结果。
- 📉 轻量高效:内存需求减少25%-50%,非常适合资源有限的环境或边缘部署。
🌍 为什么选择这个模型?
多语言模型功能强大,但它们通常体积庞大且未针对特定语言进行优化。这个模型弥补了这一差距,提供阿拉伯语原生能力,同时不牺牲性能或效率。无论您是在开发搜索引擎、聊天机器人还是大规模NLP管道,这个模型都能提供快速、准确且资源高效的解决方案。
模型详情
模型描述
- 模型类型:句子转换器
- 最大序列长度:512个标记
- 输出维度:768个标记
- 相似度函数:余弦相似度
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文