许可证:Apache-2.0
支持语言:
- 阿拉伯语(ar)
- 英语(en)
基础模型:
- urchade/gliner_multi-v2.1
任务类型:标记分类
库名称:gliner
标签:
- GLiNER
- 阿拉伯语
- 命名实体识别
GLiNER阿拉伯语模型(v2.1)
gliner_arabic-v2.1
是一款专为阿拉伯语文本处理设计的高精度、高鲁棒性命名实体识别(NER)模型。该版本基于urchade/gliner_large-v2
基础模型微调而成,擅长识别阿拉伯语中的各类实体,适用于需要从阿拉伯语数据集中进行丰富实体提取的应用场景。模型还具备有限的英语处理能力,可支持跨语言用例。
本模型属于GLiNER系列,利用广义语言增强多模态实体识别框架,在标记分类任务中提供最先进的性能表现。
核心特性
- 多样化实体识别:可检测阿拉伯文本中的多种实体类型,包括但不限于人物、组织、地点、日期等。
- 双语支持:主要针对阿拉伯语(
ar
)优化,同时辅助支持英语(en
)。
- 高性能表现:经过微调,在真实阿拉伯语NLP应用中具有出色的鲁棒性和准确性。
- Apache-2.0许可:免费用于商业和非商业用途。
模型详情:
模型名称:NAMAA-Space/gliner_arabic-v2.1
许可证:Apache-2.0
支持语言:阿拉伯语(ar
)、英语(en
)
基础模型:urchade/gliner_multi-v2.1
任务类型:标记分类
标签:GLiNER、阿拉伯语、命名实体识别
应用场景
gliner_arabic-v2.1
模型适用于:
- 从阿拉伯语新闻、社交媒体和法律文档中提取实体
- 构建阿拉伯语内容的知识图谱
- 增强具备实体感知功能的搜索推荐系统
- 支持阿拉伯语与英语混合文本的跨语言应用
安装指南
使用gliner_arabic-v2.1
模型需先安装gliner
库,可通过pip安装:
pip install gliner
请确保已安装与urchAde/gliner_large-v2
基础模型兼容的依赖项。
使用示例
以下是Python中加载模型进行命名实体识别的示例:
from gliner import GLiNER
model = GLiNER.from_pretrained("NAMAA-Space/gliner_arabic-v2.1")
text = "غزة، مدينة يصمد شعبها الفلسطيني المحاصر بقلوب كالصخر، يواجهون الإبادة الجماعية من الكيان الصهيوني برعاية أمريكية وخذلان العالم أجمع، حيث يقاوم أهلها، بقيادة يحيى السنوار ومحمد الضيف، مع فصائل حماس تحت القصف والحصار والموت منذ 7 أكتوبر 2023، وسط صمت الأمم المتحدة والاتحاد الأوروبي، بينما تجري مفاوضات في القاهرة بوساطة مصر وقطر。"
labels = ["شخص", "منظمة", "تاريخ", "موقع"]
entities = model.predict_entities(text, labels, threshold=0.5)
for entity in entities:
print(f"实体:{entity['text']} | 标签:{entity['label']} | 置信度:{entity['score']:.3f}")
输出示例
实体:غزة | 标签:موقع | 置信度:0.797
实体:الكيان الصهيوني | 标签:منظمة | 置信度:0.783
实体:يحيى السنوار | 标签:شخص | 置信度:0.917
实体:فصائل حماس | 标签:منظمة | 置信度:0.551
实体:حماس | 标签:منظمة | 置信度:0.588
实体:7 أكتوبر 2023 | 标签:تاريخ | 置信度:0.837
实体:الأمم المتحدة | 标签:منظمة | 置信度:0.823
实体:القاهرة | 标签:موقع | 置信度:0.773
实体:مصر | 标签:موقع | 置信度:0.588
局限性
- 主要面向阿拉伯语:虽然支持英语,但性能优化主要针对阿拉伯文本,英语实体识别效果可能不及原生英语模型。
- 上下文敏感性:性能会随文本复杂度和实体歧义程度变化。
- 标签依赖性:模型预测需要预定义实体标签,在开放域场景中灵活性可能受限。
联系方式
如有疑问、问题或贡献,请通过Hugging Face模型页面联系或在代码库提交issue。
致谢
本模型基于urchade/gliner_large-v2
基础模型和GLiNER框架构建,感谢开源社区对阿拉伯语NLP的贡献。