AraBERT_c19开源模型 - 免费处理COVID-19疫情相关阿拉伯语推文

首页

Arabert C19

由 moha 开发

基于150万条多方言阿拉伯语COVID-19推文预训练的AraBERT模型，专为处理与COVID-19疫情相关的阿拉伯语推文优化。

大型语言模型阿拉伯语#阿拉伯语COVID-19推文分析 #多方言阿拉伯语处理 #疫情虚假信息检测

下载量 197

发布时间 : 3/2/2022

模型简介

该模型是AraBERT v2的预训练版本，专门针对COVID-19相关的多方言阿拉伯语推文任务进行了优化，在假新闻检测、仇恨言论检测等任务中表现优异。

模型特点

多方言阿拉伯语支持

专门针对阿拉伯语多方言进行了优化，能有效处理不同方言的COVID-19相关内容。

COVID-19领域优化

使用150万条COVID-19相关推文进行预训练，在该领域任务中表现优于通用模型。

多任务性能优异

在仇恨言论检测、假新闻识别、治疗方法讨论等多种任务中均表现出色。

模型能力

阿拉伯语文本分类

仇恨言论检测

假新闻识别

医疗内容分析

使用案例

社交媒体内容审核

仇恨言论检测

识别阿拉伯语社交媒体中的仇恨言论内容

F1分数达0.8649，优于通用阿拉伯语模型

公共卫生信息管理

COVID-19治疗方法讨论识别

识别讨论COVID-19治疗方法的阿拉伯语内容

F1分数达0.9176，表现优异

新闻真实性验证

虚假信息检测

识别阿拉伯语社交媒体中的虚假疫情信息

F1分数达0.7739，显著优于通用模型

🚀 arabert_c19：在150万条新冠疫情多方言阿拉伯语推文上预训练的Arabert模型

ARABERT COVID - 19 Arxiv链接是AraBERT v2模型（https://huggingface.co/aubmindlab/bert-base-arabertv02）的预训练（微调）版本。该预训练使用了来自 “大型阿拉伯语新冠疫情推特数据集”（https://arxiv.org/abs/2004.04315）的150万条关于新冠疫情的多方言阿拉伯语推文。该模型在处理与新冠疫情相关的多方言阿拉伯语推文任务时能取得更好的效果。

🚀 快速开始

本模型是基于AraBERT v2模型进行预训练微调得到，使用了大量新冠疫情相关的多方言阿拉伯语推文，在处理新冠相关多方言阿拉伯语推文任务上表现出色。

📚 详细文档

多任务分类结果

包括使用arobert_c19和mbert_ar_c19进行假新闻和仇恨言论检测等多个任务的分类结果，更多细节请参考论文（链接）。

任务	arabert	mbert	多语言distilbert	arabert Covid - 19	mbert Covid - 19
包含仇恨言论（二分类）	0.8346	0.6675	0.7145	`0.8649`	0.8492
提及治疗方法（二分类）	0.8193	0.7406	0.7127	0.9055	`0.9176`
新闻或观点（二分类）	0.8987	0.8332	0.8099	`0.9163`	0.9116
包含虚假信息（二分类）	0.6415	0.5428	0.4743	`0.7739`	0.7228

预处理

from arabert.preprocess import ArabertPreprocessor
model_name="moha/arabert_c19"
arabert_prep = ArabertPreprocessor(model_name=model_name)
text = "للوقايه من عدم انتشار كورونا عليك اولا غسل اليدين بالماء والصابون وتكون عملية الغسل دقيقه تشمل راحة اليد الأصابع التركيز على الإبهام"
arabert_prep.preprocess(text)

📄 许可证

引用

请按以下格式引用：

@misc{ameur2021aracovid19mfh,
      title={AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech Detection Dataset}, 
      author={Mohamed Seghir Hadj Ameur and Hassina Aliane},
      year={2021},
      eprint={2105.03143},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}