开源ByT5-base模型 - 支持多语言文本处理，对噪声数据有强鲁棒性

首页

Byt5 Base

由 google 开发

ByT5是谷歌T5的无分词器版本，直接处理UTF-8字节序列，支持多语言文本处理，对噪声数据具有鲁棒性。

大型语言模型支持多种语言开源协议:Apache-2.0 #字节级处理 #多语言支持 #噪声鲁棒

下载量 24.17k

发布时间 : 3/2/2022

模型简介

ByT5是一种无需分词的预训练语言模型，直接处理原始字节序列，适用于多语言文本生成和理解任务。

模型特点

无分词处理

直接处理UTF-8字节序列，无需依赖分词器，减少预处理复杂性。

多语言支持

原生支持超过100种语言，可立即处理任何语言的文本。

噪声鲁棒性

在噪声文本数据上表现优异，如拼写错误和非标准文本。

统一架构

基于标准Transformer架构，仅需最小修改即可处理字节序列。

模型能力

多语言文本生成

文本理解

机器翻译

文本摘要

使用案例

自然语言处理

多语言文本生成

生成不同语言的连贯文本

在TweetQA等任务上优于分词模型

噪声文本处理

处理包含拼写错误或非标准文本

对噪声数据具有更强鲁棒性

🚀 ByT5 - Base

ByT5 是 Google 的 T5 无分词器版本，总体遵循 MT5 的架构。它在处理噪声文本数据方面表现出色，能有效应对各种复杂的文本场景，为自然语言处理任务提供了强大的支持。

🚀 快速开始

ByT5 仅在 mC4 上进行了预训练，平均跨度掩码为 20 个 UTF - 8 字符，且未进行任何有监督训练。因此，在下游任务中使用该模型之前，需要对其进行微调。

ByT5 在噪声文本数据上表现尤其出色，例如，google/byt5 - base 在 TweetQA 上的表现显著优于 [mt5 - base](https://huggingface.co/google/mt5 - base)。

作者：Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel

✨ 主要特性

无分词器设计：ByT5 是无分词器版本的模型，可直接处理原始 UTF - 8 字节，避免了分词器带来的复杂性。
处理噪声文本能力强：在噪声文本数据上表现出色，如在 TweetQA 任务中显著优于 mt5 - base。
需微调使用：由于仅进行了预训练，在下游任务使用前需进行微调。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

ByT5 可直接处理原始 UTF - 8 字节，无需分词器：

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3  # add 3 for special tokens
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3  # add 3 for special tokens

loss = model(input_ids, labels=labels).loss # forward pass

高级用法

对于批量推理和训练，建议使用分词器类进行填充：

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-base')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss # forward pass

📚 详细文档

大多数广泛使用的预训练语言模型基于对应单词或子词单元的标记序列进行操作。将文本编码为标记序列需要分词器，而分词器通常是独立于模型创建的。相反，直接处理原始文本（字节或字符）的无标记模型有很多优点：它们可以直接处理任何语言的文本，对噪声更具鲁棒性，并且通过去除复杂且容易出错的文本预处理流程，减少了技术负担。由于字节或字符序列比标记序列更长，过去关于无标记模型的工作通常引入了新的模型架构，旨在分摊直接处理原始文本的成本。

在本文中，作者表明标准的 Transformer 架构只需进行最小的修改即可处理字节序列。作者仔细分析了在参数数量、训练浮点运算次数和推理速度方面的权衡，并表明字节级模型与其标记级对应模型具有竞争力。作者还证明了字节级模型对噪声更具鲁棒性，并且在对拼写和发音敏感的任务上表现更好。作为贡献的一部分，作者发布了一组基于 T5 架构的新的预训练字节级 Transformer 模型，以及实验中使用的所有代码和数据。

模型图片

📄 许可证

本项目采用 Apache - 2.0 许可证。

📦 相关信息

属性	详情
支持语言	multilingual, af, am, ar, az, be, bg, bn, ca, ceb, co, cs, cy, da, de, el, en, eo, es, et, eu, fa, fi, fil, fr, fy, ga, gd, gl, gu, ha, haw, hi, hmn, ht, hu, hy, ig, is, it, iw, ja, jv, ka, kk, km, kn, ko, ku, ky, la, lb, lo, lt, lv, mg, mi, mk, ml, mn, mr, ms, mt, my, ne, nl, no, ny, pa, pl, ps, pt, ro, ru, sd, si, sk, sl, sm, sn, so, sq, sr, st, su, sv, sw, ta, te, tg, th, tr, uk, und, ur, uz, vi, xh, yi, yo, zh, zu
数据集	mc4
许可证	apache - 2.0