multi-dialect-bert-base-arabic开源模型 - 免费支持阿拉伯语多种方言识别

首页

Multi Dialect Bert Base Arabic

由 bashar-talafha 开发

基于Arabic-BERT初始化并在1000万条阿拉伯语推文上训练的多方言BERT模型，支持阿拉伯语多种方言识别

大型语言模型阿拉伯语#阿拉伯语方言识别 #多方言BERT #社交媒体文本处理

下载量 357

发布时间 : 3/2/2022

模型简介

该模型是针对阿拉伯语多种方言开发的BERT模型，特别适用于国家级别方言识别任务。基于Arabic-BERT权重初始化，并在NADI阿拉伯语方言识别任务的未标注数据上进行了训练。

模型特点

多方言支持

专门针对阿拉伯语多种方言训练，能有效识别不同地区的阿拉伯语方言

基于大规模推文数据

在1000万条未标注阿拉伯语推文数据上训练，具有强大的语言理解能力

迁移学习应用

基于Arabic-BERT权重初始化，充分利用预训练模型的优势

模型能力

阿拉伯语文本理解

方言识别

掩码语言建模

文本分类

使用案例

语言研究

阿拉伯语方言分析

识别文本中使用的阿拉伯语具体方言

能准确识别来自不同阿拉伯国家的方言

社交媒体分析

推文来源地预测

根据推文内容预测发布者的地理位置

通过方言特征判断用户可能来自的国家或地区

🚀 多方言阿拉伯语BERT模型

本项目是多方言阿拉伯语BERT模型的代码仓库，由 Mawdoo3-AI 开发。该模型旨在解决阿拉伯语不同方言的处理问题，为阿拉伯语的自然语言处理任务提供更强大的支持。

Background reference: http://www.qfi.org/wp-content/uploads/2018/02/Qfi_Infographic_Mother-Language_Final.pdf

🚀 快速开始

本模型的权重可以使用HuggingFace的transformers库进行加载。

基础用法

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("bashar-talafha/multi-dialect-bert-base-arabic")
model = AutoModel.from_pretrained("bashar-talafha/multi-dialect-bert-base-arabic")

高级用法

使用pipeline的示例：

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="bashar-talafha/multi-dialect-bert-base-arabic ",
    tokenizer="bashar-talafha/multi-dialect-bert-base-arabic "
)

fill_mask(" سافر الرحالة من مطار [MASK] ")

[{'sequence': '[CLS] سافر الرحالة من مطار الكويت [SEP]', 'score': 0.08296813815832138, 'token': 3226},
 {'sequence': '[CLS] سافر الرحالة من مطار دبي [SEP]', 'score': 0.05123933032155037, 'token': 4747},
 {'sequence': '[CLS] سافر الرحالة من مطار مسقط [SEP]', 'score': 0.046838656067848206, 'token': 13205},
 {'sequence': '[CLS] سافر الرحالة من مطار القاهرة [SEP]', 'score': 0.03234650194644928, 'token': 4003},
 {'sequence': '[CLS] سافر الرحالة من مطار الرياض [SEP]', 'score': 0.02606341242790222, 'token': 2200}]

✨ 主要特性

本模型并非从头开始训练多方言阿拉伯语BERT模型，而是使用 Arabic-BERT 初始化模型的权重，并在 The Nuanced Arabic Dialect Identification (NADI) shared task 的1000万条未标记阿拉伯语推文数据上进行训练。

📚 详细文档

如需更多信息，请查看原始仓库。

📄 许可证

引用本工作

@misc{talafha2020multidialect,
    title={Multi-Dialect Arabic BERT for Country-Level Dialect Identification},
    author={Bashar Talafha and Mohammad Ali and Muhy Eddin Za'ter and Haitham Seelawi and Ibraheem Tuffaha and Mostafa Samir and Wael Farhan and Hussein T. Al-Natsheh},
    year={2020},
    eprint={2007.05612},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}