araber_arabic_covid19开源模型 - 免费处理阿拉伯语疫情相关文本任务

首页

Arabert Arabic Covid19

由 mohadz 开发

基于150万条多方言阿拉伯语COVID-19推文预训练的AraBERT模型，专门处理与疫情相关的阿拉伯语文本任务

大型语言模型

Transformers

阿拉伯语#阿拉伯语COVID-19推文分析 #多方言阿拉伯语处理 #疫情虚假信息检测

下载量 85

发布时间 : 3/2/2022

模型简介

该模型是AraBERT v2的微调版本，针对COVID-19疫情相关的多方言阿拉伯语推文进行了优化，在假新闻检测、仇恨言论识别等任务中表现优异

模型特点

多方言支持

专门针对阿拉伯语多方言环境训练，能有效处理不同地区的语言变体

疫情领域优化

使用150万条COVID-19相关推文进行预训练，在疫情相关文本理解上表现突出

分类性能优越

在虚假信息检测、仇恨言论识别等任务上显著优于基础模型

模型能力

阿拉伯语文本分类

仇恨言论检测

虚假信息识别

疫情相关文本分析

使用案例

内容审核

仇恨言论检测

识别社交媒体中的仇恨言论内容

准确率86.49%（优于基础模型83.46%）

信息验证

虚假新闻识别

检测疫情相关的虚假信息

准确率77.39%（显著优于基础模型64.15%）

公共卫生

治疗方法讨论分析

识别关于COVID-19治疗方法的讨论

准确率91.76%（优于基础模型81.93%）

🚀 arabert_c19：在150万条COVID - 19多方言阿拉伯语推文上预训练的Arabert模型

ARABERT COVID - 19 是AraBERT v2模型（https://huggingface.co/aubmindlab/bert-base-arabertv02）的预训练（微调）版本。该预训练使用了来自 “Large Arabic Twitter Dataset on COVID - 19”（https://arxiv.org/abs/2004.04315）的150万条关于COVID - 19大流行的多方言阿拉伯语推文。该模型在处理与COVID - 19大流行相关的多方言阿拉伯语推文任务时能取得更好的效果。

🚀 快速开始

本模型可用于处理与COVID - 19大流行相关的多方言阿拉伯语推文任务，在如虚假新闻和仇恨言论检测等任务中表现出色。

✨ 主要特性

基于AraBERT v2模型进行预训练，在COVID - 19相关的多方言阿拉伯语推文任务上有更好的性能。
可用于多个任务的分类，如虚假新闻检测、仇恨言论检测等。

📦 安装指南

暂未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

from arabert.preprocess import ArabertPreprocessor
model_name="moha/arabert_c19"
arabert_prep = ArabertPreprocessor(model_name=model_name)
text = "للوقايه من عدم انتشار كورونا عليك اولا غسل اليدين بالماء والصابون وتكون عملية الغسل دقيقه تشمل راحة اليد الأصابع التركيز على الإبهام"
arabert_prep.preprocess(text)

📚 详细文档

多任务分类结果

使用arobert_c19和mbert_ar_c19进行包括虚假新闻和仇恨言论检测等多个任务的分类结果如下。更多详细信息请参考论文（链接）。

任务	arabert	mbert	distilbert multi	arabert Covid - 19	mbert Covid - 19
包含仇恨言论（二分类）	0.8346	0.6675	0.7145	`0.8649`	0.8492
提及治疗方法（二分类）	0.8193	0.7406	0.7127	0.9055	`0.9176`
新闻或观点（二分类）	0.8987	0.8332	0.8099	`0.9163`	0.9116
包含虚假信息（二分类）	0.6415	0.5428	0.4743	`0.7739`	0.7228