A

Aramodernbert Base V1.0

由 NAMAA-Space 开发
AraModernBert是基于ModernBERT架构构建的先进阿拉伯语语言模型,结合了Transformer设计创新与100GB阿拉伯语文本的大规模训练。
下载量 660
发布时间 : 2/1/2025
模型介绍
内容详情
替代品

模型简介

该模型专为阿拉伯语理解设计,适用于文本嵌入、信息检索、文本分类等多种NLP任务。

模型特点

跨标记化技术
采用跨标记化技术优化MLM任务的嵌入层初始化,提升模型性能
长上下文支持
支持8,192标记的上下文窗口,适合处理长文本
专用阿拉伯语分词器
使用50,280词汇量的定制分词器,专门优化阿拉伯语处理
交替注意力机制
每3层全局注意力+128标记局部窗口的混合注意力架构

模型能力

阿拉伯语文本理解
掩码语言建模
语义文本相似度计算
文本分类
命名实体识别

使用案例

文本分析
语义文本相似度
计算两段阿拉伯语文本的语义相似度
STS17: 0.831, STS22: 0.617
文本分类
对阿拉伯语文本进行分类
准确率94.32%,F1分数94.31%
信息检索
检索增强生成(RAG)
用于阿拉伯语问答系统的检索组件