bart-base-chinese开源模型 - 专注中文理解与生成，支持文本到文本创作

首页

Bart Base Chinese

由 fnlp 开发

面向中文理解与生成的预训练非平衡Transformer模型，支持文本到文本生成任务

大型语言模型

Transformers

中文#中文文本生成 #序列到序列 #长文本处理

下载量 6,504

发布时间 : 3/2/2022

模型简介

中文BART基础版是一个基于Transformer架构的序列到序列模型，专门针对中文文本理解和生成任务进行优化。该模型通过预训练学习中文语言表示，能够处理多种文本生成任务。

模型特点

优化的中文词汇表

采用从训练数据构建的51271词项新词表，补全缺失汉字并移除冗余标记，提升中文处理能力

扩展的位置编码

最大位置编码长度从512扩展至1024，支持处理更长文本序列

增量训练优化

通过词汇对齐方式继承旧版参数，新增参数随机初始化后进行5万步增量训练

模型能力

中文文本生成

文本摘要

文本补全

问答生成

使用案例

文本生成

首都识别

识别并生成城市与国家首都关系

输入'北京是[MASK]的首都'，输出'北京是中国的首都'

文本摘要

中文文档摘要

生成中文文档的简洁摘要

在CSL摘要任务中达到61.51的ROUGE-L分数

🚀 中文BART-Base

中文BART-Base是一个用于文本生成的模型，它基于BART架构，适用于中文文本处理，能在多种自然语言处理任务中发挥作用。

🚀 快速开始

你可以按照以下步骤使用该模型：

>>> from transformers import BertTokenizer, BartForConditionalGeneration, Text2TextGenerationPipeline
>>> tokenizer = BertTokenizer.from_pretrained("fnlp/bart-base-chinese")
>>> model = BartForConditionalGeneration.from_pretrained("fnlp/bart-base-chinese")
>>> text2text_generator = Text2TextGenerationPipeline(model, tokenizer)  
>>> text2text_generator("北京是[MASK]的首都", max_length=50, do_sample=False)
    [{'generated_text': '北 京 是 中 国 的 首 都'}]

⚠️ 重要提示

请使用BertTokenizer处理模型词汇，请勿使用原始的BartTokenizer。

✨ 主要特性

模型更新

2022年12月30日

发布了CPT和中文BART的更新版本。在新版本中，对以下部分进行了更改：

词汇表：用一个从训练数据构建的更大的、大小为51271的词汇表替换了旧的BERT词汇表。具体操作包括：1) 添加了缺失的6800多个中文字符（其中大部分是繁体字）；2) 移除了冗余的标记（例如带有##前缀的中文字符标记）；3) 添加了一些英文标记以减少未登录词（OOV）。
位置嵌入：将最大位置嵌入 max_position_embeddings 从512扩展到1024。

使用旧版本的检查点对新版本的模型进行初始化，并进行词汇对齐。复制旧检查点中找到的标记嵌入，其他新添加的参数则随机初始化。进一步对新的CPT和中文BART进行了50K步的训练，批次大小为2048，最大序列长度为1024，峰值学习率为2e - 5，热身比率为0.1。

性能对比

与之前的检查点相比，结果如下：

	AFQMC	IFLYTEK	CSL - sum	LCSTS	AVG
之前版本
bart - base	73.0	60	62.1	37.8	58.23
cpt - base	75.1	60.5	63.0	38.2	59.20
bart - large	75.7	62.1	64.2	40.6	60.65
cpt - large	75.9	61.8	63.7	42.0	60.85
更新版本
bart - base	73.03	61.25	61.51	38.78	58.64
cpt - base	74.40	61.23	62.09	38.81	59.13
bart - large	75.81	61.52	64.62	40.90	60.71
cpt - large	75.97	61.63	63.83	42.08	60.88

结果表明，更新后的模型与之前的检查点相比保持了相当的性能。仍有一些情况是更新后的模型略逊于之前的模型，原因如下：1) 额外的几步训练并未带来显著的性能提升；2) 一些下游任务不受新添加标记和更长编码序列的影响，但对微调超参数敏感。

⚠️ 重要提示

要使用更新后的模型，请更新 modeling_cpt.py（新版本下载点击此处）和词汇表（刷新缓存）。

📚 详细文档

模型描述

这是中文BART - Base的一个实现。

CPT: A Pre - Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

作者：Yunfan Shao, Zhichao Geng, Yitao Liu, Junqi Dai, Fei Yang, Li Zhe, Hujun Bao, Xipeng Qiu

Github链接：https://github.com/fastnlp/CPT

📄 许可证

引用信息

@article{shao2021cpt,
  title={CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation}, 
  author={Yunfan Shao and Zhichao Geng and Yitao Liu and Junqi Dai and Fei Yang and Li Zhe and Hujun Bao and Xipeng Qiu},
  journal={arXiv preprint arXiv:2109.05729},
  year={2021}
}