语言:
- 阿拉伯语
许可证: Apache-2.0
组件:
- 文本: '你好吗?最近怎么样?'
CAMeLBERT-Mix 海湾阿拉伯语词性标注模型
模型描述
CAMeLBERT-Mix POS-GLF模型是通过微调CAMeLBERT-Mix模型构建的海湾阿拉伯语词性标注模型。在微调过程中,我们使用了Gumar数据集。微调流程及超参数设置详见论文《阿拉伯语预训练语言模型中变体、规模与任务类型的交互影响》。微调代码已开源在CAMeL-Lab GitHub仓库。
应用场景
本模型可作为transformers流水线组件使用,后续也将集成至CAMeL Tools工具包。
调用方式
通过transformers流水线调用:
>>> from transformers import pipeline
>>> pos = pipeline('token-classification', model='CAMeL-Lab/bert-base-arabic-camelbert-mix-pos-glf')
>>> text = '你好吗?最近怎么样?'
>>> pos(text)
[{'entity': '疑问代词', 'score': 0.82657206, 'index': 1, 'word': '你好', 'start': 0, 'end': 4}, {'entity': '介词', 'score': 0.9771731, 'index': 2, 'word': '##吗', 'start': 4, 'end': 5}, {'entity': '标点', 'score': 0.9999568, 'index': 3, 'word': '?', 'start': 6, 'end': 7}, {'entity': '名词', 'score': 0.9977217, 'index': 4, 'word': '最', 'start': 8, 'end': 9}, {'entity': '名词', 'score': 0.99993783, 'index': 5, 'word': '##近', 'start': 9, 'end': 13}, {'entity': '介词', 'score': 0.5309442, 'index': 6, 'word': '##怎么样', 'start': 13, 'end': 14}, {'entity': '标点', 'score': 0.9999575, 'index': 7, 'word': '?', 'start': 15, 'end': 16}]
注意:需使用transformers>=3.5.0
版本,或手动下载模型文件。
文献引用
@inproceedings{inoue-etal-2021-interplay,
title = "阿拉伯语预训练语言模型中变体、规模与任务类型的交互影响",
author = "井上豪 and 阿尔哈夫尼·巴沙尔 and 拜穆坎·努尔佩伊斯 and 布阿穆尔·胡达 and 哈巴什·尼扎尔",
booktitle = "第六届阿拉伯自然语言处理研讨会论文集",
month = "4月",
year = "2021",
address = "乌克兰基辅(线上)",
publisher = "计算语言学协会",
abstract = "本文系统研究了阿拉伯语预训练语言模型中语言变体、数据规模和微调任务类型的影响机制。通过构建覆盖现代标准阿拉伯语、方言阿拉伯语和古典阿拉伯语的三类预训练模型,以及三者混合的第四类模型,结合五种NLP任务在12个数据集上的实验表明:预训练数据与微调数据的变体相近性比数据规模更重要,这一发现为任务优化系统选择提供了理论依据。",
}