arabic-english-bge-m3开源模型 - 小内存占用实现阿英双语高效处理

首页

Arabic English Bge M3

由 sayed0am 开发

这是BAAI/bge-m3模型的阿拉伯语精简版本，保留了原模型约98%的质量，同时内存占用更小。

文本嵌入

Safetensors

支持多种语言开源协议:MIT #阿英双语嵌入 #轻量化剪枝 #段落检索优化

下载量 257

发布时间 : 2/19/2025

模型简介

该模型是针对阿拉伯语优化的句子相似度计算模型，支持阿拉伯语和英语的段落检索和句子相似度计算。

模型特点

高效精简

比原模型缩小约75%，同时保留98%的质量

双语支持

专门针对阿拉伯语和英语优化

ONNX量化支持

提供ONNX量化版本，进一步减小模型体积

模型能力

计算句子相似度

段落检索

跨语言文本匹配

使用案例

信息检索

阿拉伯语文档检索

在阿拉伯语文档库中查找相关文档

高效准确地检索相关阿拉伯语内容

多语言应用

阿英双语匹配

匹配阿拉伯语和英语的相似内容

实现阿拉伯语和英语内容的跨语言关联

🚀 🇸🇦 阿拉伯语 - 英语 bge - m3

本模型是 [BAAI/bge - m3](https://huggingface.co/BAAI/bge - m3) 的精简版本，专为阿拉伯语设计，模型体积缩小了 36.2%。

其 ONNX 量化版本相较于剪枝后的模型，体积大约缩小了 75%（仅 363 MB），同时还保留了原模型约 98% 的性能。

在处理阿拉伯语任务时，这个剪枝后的模型与原模型表现相近，但内存占用要小得多。不过，由于原多语言模型词汇表中移除了阿拉伯语里不常用的标记，该模型在处理原多语言模型所支持的其他语言时，表现可能不佳。

🚀 快速开始

本模型可通过以下方式使用：

✨ 主要特性

专为阿拉伯语优化，在阿拉伯语任务上与原模型性能相近，但体积显著缩小。
ONNX 量化版本体积更小，且能保留较高的性能。

📦 安装指南

使用此模型前，需安装相应的库，如 transformers、sentence - transformers、huggingface - hub、optimum 等。可以使用以下命令进行安装：

pip install transformers sentence-transformers huggingface-hub optimum onnxruntime

💻 使用示例

基础用法

你可以使用 Transformers 库加载该模型：

from transformers import AutoModel, AutoTokenizer

model_name = "sayed0am/arabic-english-bge-m3"
model = AutoModel.from_pretrained(model_name, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True, use_fast=True)

或者使用 sentence - transformers 库：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("sayed0am/arabic-english-bge-m3")

高级用法

使用 ONNX 版本

# pip install huggingface-hub
 
from huggingface_hub import snapshot_download

snapshot_download(repo_id="sayed0am/arabic-english-bge-m3",local_dir="arabic-english-bge-m3")

from optimum.onnxruntime import ORTModelForFeatureExtraction
from transformers import AutoTokenizer
import torch

# 确保将模型权重下载到本地的 `bge-m3-onnx` 目录
model = ORTModelForFeatureExtraction.from_pretrained("arabic-english-bge-m3", subfolder="onnx", provider="CUDAExecutionProvider") # 若使用 CPU 则省略 provider 参数。
tokenizer = AutoTokenizer.from_pretrained("arabic-english-bge-m3")
sentences = [
    "English: The quick brown fox jumps over the lazy dog.",
    "Arabic: الثعلب البني السريع يقفز فوق الكلب الكسول."
]
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt').to("cuda") # 若使用 CPU 则移除 .to("cuda")

# 获取嵌入向量
out=model(**encoded_input,return_dict=True).last_hidden_state

# 对嵌入向量进行归一化
dense_vecs = torch.nn.functional.normalize(out[:, 0], dim=-1)