语言:
- 阿拉伯语
标签:
- 阿拉伯语T5模型
- 现代标准阿拉伯语
- 推特数据
- 阿拉伯语方言
- 阿拉伯语机器翻译
- 阿拉伯语文本摘要
- 阿拉伯新闻标题与问题生成
- 阿拉伯语改写与转写
- 阿拉伯语代码转换翻译
AraT5-base标题生成模型
AraT5:面向阿拉伯语生成的文本到文本转换器
本代码库配套我们的论文《AraT5:面向阿拉伯语理解与生成的文本到文本转换器》发布。在此我们推出三款基于Transformer的阿拉伯语专用文本生成模型:AraT5MSA(现代标准阿拉伯语版)、AraT5Tweet(推特版)以及通用版AraT5。
AraT5模型使用指南
以下示例展示如何在Aranews数据集上微调AraT5-base模型进行新闻标题生成:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("UBC-NLP/AraT5-base-title-generation")
model = AutoModelForSeq2SeqLM.from_pretrained("UBC-NLP/AraT5-base-title-generation")
新闻原文 = "在东部省省长苏欧德·本·纳伊夫亲王殿下赞助下,东部商会近日完成了2019年免费倡议的第二阶段,为沙特儿女提供了6个优质培训项目。商会董事会主席阿卜杜勒哈基姆·奥马尔·哈立迪感谢省长殿下对倡议的支持,强调殿下对所有活动的..."
编码 = tokenizer.encode_plus(新闻原文,pad_to_max_length=True, return_tensors="pt")
输入序列, 注意力掩码 = 编码["input_ids"], 编码["attention_mask"]
输出 = model.generate(
input_ids=输入序列, attention_mask=注意力掩码,
max_length=256,
do_sample=True,
top_k=120,
top_p=0.95,
early_stopping=True,
num_return_sequences=5
)
for 序号, 结果 in enumerate(输出):
标题 = tokenizer.decode(结果, skip_special_tokens=True,clean_up_tokenization_spaces=True)
print("生成标题#"+str(序号), 标题)
输入新闻原文
在东部省省长苏欧德·本·纳伊夫亲王殿下赞助下,东部商会近日完成了2019年免费倡议的第二阶段,为沙特儿女提供了6个优质培训项目。商会董事会主席阿卜杜勒哈基姆·奥马尔·哈立迪感谢省长殿下对倡议的支持,强调殿下对所有活动的...
生成的标题
生成标题#0 东部商会完成沙特儿女培训倡议第二阶段
生成标题#1 东部商会结束沙特子女培训计划第二阶段
生成标题#2 苏欧德·本·纳伊夫赞助沙特儿女培训项目收官
生成标题#3 东部省长出席沙特子女培训计划闭幕式
生成标题#4 苏欧德·本·纳伊夫主持沙特儿女培训结业典礼
AraT5模型下载
所有PyTorch和TensorFlow版AraT5模型均可在Huggingface平台获取,仅限研究用途
。商业使用请联系作者邮箱:muhammad.mageed[at]ubc[dot]ca
引用格式
若您使用我们的模型(包括AraT5-base、AraT5-msa-base、AraT5-tweet-base、AraT5-msa-small或AraT5-tweet-small)进行研究,请引用以下论文:
@inproceedings{nagoudi-etal-2022-arat5,
title = "{A}ra{T}5: 阿拉伯语生成的文本到文本转换器",
author = "Nagoudi, El Moatez Billah 等",
booktitle = "ACL 2022会议论文集",
year = "2022",
pages = "628--647",
url = "https://aclanthology.org/2022.acl-long.47"
}
致谢
本研究由加拿大自然科学与工程研究委员会、社会科学与人文研究委员会、加拿大创新基金会、ComputeCanada和UBC ARC-Sockeye提供支持。特别感谢Google TensorFlow研究云计划提供的免费TPU算力资源。