开源mBERT_ar_c19模型 - 高效处理多方言阿拉伯语疫情相关推文

首页

Mbert Ar C19

由 moha 开发

基于150万条COVID-19多方言阿拉伯语推文预训练的mBERT模型，优化了与疫情相关的阿拉伯语推文处理能力。

大型语言模型阿拉伯语#阿拉伯语COVID-19推文分析 #多方言阿拉伯语处理 #假新闻检测

下载量 22

发布时间 : 3/2/2022

模型简介

该模型是mBERT的多方言阿拉伯语版本，专门针对COVID-19相关内容进行了预训练，在处理疫情相关的阿拉伯语文本时表现更优。

模型特点

多方言支持

专门针对阿拉伯语多方言进行优化，能有效处理不同地区的阿拉伯语变体

疫情领域优化

使用150万条COVID-19相关推文进行预训练，在疫情相关任务上表现优异

多任务能力

可同时处理假新闻检测、仇恨言论识别、内容分类等多种任务

模型能力

阿拉伯语文本分类

假新闻检测

仇恨言论识别

疫情相关内容分析

使用案例

社交媒体监测

疫情假新闻检测

识别社交媒体上关于COVID-19的虚假信息

F1分数0.7739（优于基准模型）

仇恨言论监测

检测疫情相关讨论中的仇恨言论

F1分数0.8649（优于基准模型）

公共卫生

治疗方法讨论分析

分类讨论COVID-19治疗方法的推文

F1分数0.9176（优于基准模型）

🚀 mbert_c19：基于150万条COVID - 19多方言阿拉伯语推文预训练的mbert模型

mBERT COVID - 19是mBERT模型（https://huggingface.co/bert - base - multilingual - cased）的预训练（微调）版本。该预训练使用了来自“Large Arabic Twitter Dataset on COVID - 19”（https://arxiv.org/abs/2004.04315）的150万条关于COVID - 19大流行的多方言阿拉伯语推文。此模型在处理与COVID - 19大流行相关的多方言阿拉伯语推文任务时能取得更好的效果。

🚀 快速开始

mBERT COVID - 19模型在处理与COVID - 19大流行相关的多方言阿拉伯语推文任务时具有优势。下面将为你介绍该模型的相关信息。

✨ 主要特性

mBERT COVID - 19是mBERT模型的预训练（微调）版本。
使用150万条关于COVID - 19大流行的多方言阿拉伯语推文进行预训练。
在处理与COVID - 19大流行相关的多方言阿拉伯语推文任务时能取得更好的效果。

📦 安装指南

暂未提及安装步骤，跳过该章节。

💻 使用示例

基础用法

from arabert.preprocess import ArabertPreprocessor
model_name="moha/mbert_ar_c19"
arabert_prep = ArabertPreprocessor(model_name=model_name)
text = "للوقايه من عدم انتشار كورونا عليك اولا غسل اليدين بالماء والصابون وتكون عملية الغسل دقيقه تشمل راحة اليد الأصابع التركيز على الإبهام"
arabert_prep.preprocess(text)

📚 详细文档

多任务分类结果

包括虚假新闻和仇恨言论检测等多个任务使用arabert_c19和mbert_ar_c19时的分类结果：如需更多详细信息，请参考论文（链接）

	arabert	mbert	多语言distilbert	arabert Covid - 19	mbert Covid - 19
包含仇恨言论（二分类）	0.8346	0.6675	0.7145	`0.8649`	0.8492
讨论治疗方法（二分类）	0.8193	0.7406	0.7127	0.9055	`0.9176`
新闻或观点（二分类）	0.8987	0.8332	0.8099	`0.9163`	0.9116
包含虚假信息（二分类）	0.6415	0.5428	0.4743	`0.7739`	0.7228

🔧 技术细节

暂未提供具体的技术实现细节，跳过该章节。

📄 许可证

暂未提及许可证信息，跳过该章节。

📖 引用信息

请按以下格式引用：

@misc{ameur2021aracovid19mfh,
      title={AraCOVID19-MFH: Arabic COVID-19 Multi-label Fake News and Hate Speech Detection Dataset}, 
      author={Mohamed Seghir Hadj Ameur and Hassina Aliane},
      year={2021},
      eprint={2105.03143},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}