许可协议:Apache-2.0
库名称:transformers
语言:
- 阿拉伯语
基础模型:
- UBC-NLP/MARBERTv2
管道标签:填充掩码
标签:
- 沙特
- 阿拉伯语
- 嵌入
SA-BERT-V1:沙特方言嵌入模型
模型详情
- 微调模型ID: Omartificial-Intelligence-Space/SA-BERT-V1
- 许可协议: Apache 2.0
- 设计用途: 沙特方言
- 模型类型: 句子嵌入(基于BERT编码器的均值池化)
- 架构: 12层Transformer,768维隐藏状态
- 嵌入尺寸: 768
- 预训练模型: UBC-NLP/MARBERTv2
- 微调数据: 超过50万条沙特方言句子,涵盖多样主题和地区变体(如汉志、内志等)
- 支持语言: 阿拉伯语(沙特方言)
- 适用任务: 语义相似度、聚类、检索、下游分类
SA-BERT-V1 实现了对沙特方言的卓越理解——在内部与跨类别相似度差距上提升了+0.0022,并在44个专业类别中达到0.98的平均余弦分数,为阿拉伯方言句子嵌入树立了新标杆。
▪️SA-BERT-V1 展现出正向的内部-跨类别差距和高绝对相似度,证明了针对沙特方言微调的有效性。
▪️内部 vs 跨类别: 两者均接近~0.98,存在微小正向差距(+0.0023),表明同主题嵌入更接近。
▪️性能: 在沙特方言聚类任务中表现优异,非常适合检索或分组任务。
▪️评估基于1280条沙特方言句子的测试集,覆盖44个多样类别(如问候、天气、法律与司法等)。
▪️数据集由本团队创建并公开,用于评估嵌入模型,通过采样类别内和跨类别句子对计算:
◽️类别内/跨类别平均余弦相似度
◽️前5组最相似/最不相似句子对
◽️每类别平均相似度
▪️ 访问测试样本: 沙特方言测试样本
实现示例
import torch
from transformers import AutoTokenizer, AutoModel
MODEL_ID = "Omartificial-Intelligence-Space/SA-BERT-V1"
DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, token="此处填写读取令牌")
model = AutoModel.from_pretrained(MODEL_ID, token="此处填写读取令牌").to(DEVICE).eval()
def embed_sentence(text: str) -> torch.Tensor:
"""
对文本进行分词,通过SA-BERT-V1处理,返回768维均值池化的句子嵌入。
"""
enc = tokenizer(
text,
truncation=True,
padding="max_length",
max_length=256,
return_tensors="pt"
).to(DEVICE)
with torch.no_grad():
outputs = model(**enc).last_hidden_state
mask = enc["attention_mask"].unsqueeze(-1)
summed = (outputs * mask).sum(dim=1)
counts = mask.sum(dim=1).clamp(min=1e-9)
embedding = summed / counts
return embedding.squeeze(0)
if __name__ == "__main__":
sentences = [
"شتبي من البقالة؟",
"كيف حالك؟",
"وش رايك في الموضوع هذا؟"
]
for s in sentences:
vec = embed_sentence(s)
print(f"句子: {s}\n嵌入形状: {vec.shape}\n")
引用
如果研究或应用中使用了SA-BERT-V1,请引用:
@misc{nacar2025SABERTV1,
title={SA-BERT-V1: 沙特方言微调嵌入模型},
author={Nacar, Omer & Sibaee, Serry},
year={2025},
publisher={Omartificial-Intelligence-Space},
howpublished={\url{https://huggingface.co/Omartificial-Intelligence-Space/SA-BERT-V1}},
}
@inproceedings{abdul-mageed-etal-2021-arbert,
title = "{ARBERT}与{MARBERT}: 阿拉伯语深度双向Transformer模型",
author = "Abdul-Mageed, Muhammad and Elmadany, AbdelRahim and Nagoudi, El Moatez Billah",
booktitle = "第59届ACL国际会议暨第11届自然语言处理联合国际会议论文集(长文卷)",
year = "2021",
publisher = "计算语言学协会",
pages = "7088--7105",
}