pyc2py_alpha2 ByT5开源模型 - 无需分词器，处理噪声和多语言文本超实用

首页

Pyc2py Alpha2

由 baffo32 开发

ByT5是谷歌T5的无分词器版本，直接处理原始UTF-8字节，无需依赖分词器，特别适合处理噪声文本和多语言场景。

大型语言模型其他开源协议:Apache-2.0 #字节级处理 #多语言支持 #噪声文本鲁棒

下载量 15

发布时间 : 3/2/2022

模型简介

ByT5是基于字节到字节预训练的Transformer模型，直接处理原始UTF-8字节序列，无需分词器。该模型在mC4数据集上预训练，适用于多语言文本处理任务，尤其在噪声文本上表现优异。

模型特点

无分词器设计

直接处理原始UTF-8字节，无需依赖独立分词器，降低技术复杂性。

多语言支持

基于字节级处理，天然支持所有语言的文本，无需额外语言适配。

噪声鲁棒性

在噪声文本（如拼写错误、非标准格式）上表现显著优于传统分词模型。

统一架构

使用标准Transformer架构，仅需微小调整即可处理字节序列。

模型能力

多语言文本生成

噪声文本处理

跨语言迁移学习

文本理解与转换

使用案例

自然语言处理

多语言文本摘要

对多种语言的文本生成摘要

无需语言特定处理即可实现跨语言摘要

噪声文本处理

处理包含拼写错误或非标准格式的文本

在TweetQA任务中表现优于传统分词模型

机器翻译

字节级机器翻译

直接在字节序列层面进行语言转换

避免分词带来的信息损失

🚀 ByT5 - Base

ByT5是谷歌T5的无分词器版本，总体上遵循MT5的架构。它无需分词器，能直接处理原始的UTF - 8字节数据，在处理嘈杂文本数据方面表现出色。

🚀 快速开始

ByT5是基于Transformer架构的模型，在mC4数据集上进行预训练，平均跨度掩码为20个UTF - 8字符。该模型在用于下游任务前需要进行微调。

✨ 主要特性

无分词器：ByT5是无分词器版本的T5模型，可直接处理原始的UTF - 8字节数据。
预训练数据：仅在mC4上进行预训练，未进行任何监督训练，平均跨度掩码为20个UTF - 8字符。
下游任务需微调：该模型在用于下游任务前需要进行微调。
处理嘈杂文本能力强：在嘈杂文本数据上表现出色，例如在TweetQA任务中，google/byt5 - base显著优于[mt5 - base](https://huggingface.co/google/mt5 - base)。

💻 使用示例

基础用法

ByT5可直接处理原始的UTF - 8字节数据，无需分词器：

from transformers import T5ForConditionalGeneration
import torch

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')

input_ids = torch.tensor([list("Life is like a box of chocolates.".encode("utf-8"))]) + 3  # add 3 for special tokens
labels = torch.tensor([list("La vie est comme une boîte de chocolat.".encode("utf-8"))]) + 3  # add 3 for special tokens

loss = model(input_ids, labels=labels).loss # forward pass

高级用法

对于批量推理和训练，建议使用分词器类进行填充：

from transformers import T5ForConditionalGeneration, AutoTokenizer

model = T5ForConditionalGeneration.from_pretrained('google/byt5-base')
tokenizer = AutoTokenizer.from_pretrained('google/byt5-base')

model_inputs = tokenizer(["Life is like a box of chocolates.", "Today is Monday."], padding="longest", return_tensors="pt")
labels = tokenizer(["La vie est comme une boîte de chocolat.", "Aujourd'hui c'est lundi."], padding="longest", return_tensors="pt").input_ids

loss = model(**model_inputs, labels=labels).loss # forward pass

📚 详细文档

论文信息

标题：ByT5: Towards a token - free future with pre - trained byte - to - byte models
作者：Linting Xue, Aditya Barua, Noah Constant, Rami Al - Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel