开源byT5-xxl模型 - 支持多语言文本处理，轻松应对噪声数据！

首页

Byt5 Xxl

由 google 开发

ByT5是谷歌T5的无分词器版本，直接处理UTF-8字节序列，支持多语言文本处理，特别擅长处理噪声数据。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #字节级处理 #多语言支持 #噪声文本鲁棒性

下载量 1,872

发布时间 : 3/2/2022

模型简介

ByT5是基于字节级别的预训练模型，无需依赖分词器即可处理多种语言的原始文本，对噪声数据具有较强鲁棒性，适用于需要跨语言处理的任务。

模型特点

无分词器设计

直接处理原始UTF-8字节，无需复杂的分词流程，可立即处理任何语言的文本

多语言支持

原生支持85种语言处理，包括许多低资源语言

噪声鲁棒性

在噪声文本数据上表现优异，如拼写错误和非标准文本

统一处理框架

消除分词带来的技术债务，简化文本预处理流程

模型能力

多语言文本处理

噪声文本理解

序列到序列生成

跨语言迁移学习

使用案例

自然语言处理

机器翻译

在多语言间进行文本翻译，特别是非标准或噪声文本

在噪声文本上表现优于传统分词模型

文本摘要

生成多语言文本的摘要

问答系统

处理包含拼写错误或非标准表达的问答任务

在TweetQA任务上表现优异

🚀 ByT5 - xxl

ByT5 是 Google 的 T5 无分词器版本，总体遵循 MT5 的架构。它仅在 mC4 上进行预训练，不进行任何监督训练，平均跨度掩码为 20 个 UTF - 8 字符。因此，该模型在下游任务中使用前需要进行微调。ByT5 在处理噪声文本数据方面表现出色，例如，google/byt5-xxl 在 TweetQA 任务上显著优于 mt5-xxl。

🚀 快速开始

ByT5 是 Google 的 T5 的无分词器版本，总体上遵循 MT5 的架构。它仅在 mC4 上进行了预训练，没有进行任何监督训练，平均跨度掩码为 20 个 UTF - 8 字符。所以，这个模型在用于下游任务之前需要进行微调。

✨ 主要特性

无分词器：ByT5 是无分词器版本的模型，可直接处理原始 UTF - 8 字节。
多语言支持：支持多种语言，包括但不限于英语、中文、法语、德语等众多语言。
处理噪声文本能力强：在处理噪声文本数据时表现出色，例如在 TweetQA 任务上显著优于 mt5-xxl。

💻 使用示例

基础用法

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-xxl')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3  # add 3 for special tokens
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3  # add 3 for special tokens

loss = model(input_ids, labels=labels).loss # forward pass

高级用法

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-xxl')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-xxl')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss # forward pass

📚 详细文档

模型概述

大多数广泛使用的预训练语言模型处理的是与单词或子词单元对应的标记序列。将文本编码为标记序列需要一个分词器，而分词器通常是独立于模型创建的。无标记模型直接处理原始文本（字节或字符），具有许多优点：它们可以直接处理任何语言的文本，对噪声更具鲁棒性，并且通过去除复杂且容易出错的文本预处理流程，减少了技术负担。由于字节或字符序列比标记序列更长，过去关于无标记模型的工作通常引入了新的模型架构，以分摊直接处理原始文本的成本。在本文中，作者表明可以对标准的 Transformer 架构进行最小的修改来处理字节序列。作者仔细分析了在参数数量、训练浮点运算次数和推理速度方面的权衡，并表明字节级模型与标记级模型具有竞争力。作者还证明了字节级模型对噪声更具鲁棒性，并且在对拼写和发音敏感的任务上表现更好。作为贡献的一部分，作者发布了一组基于 T5 架构的新的预训练字节级 Transformer 模型，以及实验中使用的所有代码和数据。

模型图示

📄 许可证

本项目采用 Apache - 2.0 许可证。

📦 相关信息

属性	详情
支持语言	多语言，包括南非语（af）、阿姆哈拉语（am）、阿拉伯语（ar）等众多语言
训练数据集	mC4
论文	ByT5: Towards a token - free future with pre - trained byte - to - byte models
作者	Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel