M

Mrt5 Large

由 stanfordnlp 开发
MrT5是基于ByT5改进的高效字节级语言模型,通过动态令牌合并技术缩短输入序列长度约50%
下载量 33
发布时间 : 3/23/2025
模型介绍
内容详情
替代品

模型简介

MrT5是ByT5的高效改进版本,通过在编码器中集成令牌删除机制动态缩短输入序列长度,为字节级模型提供更高效的解决方案

模型特点

动态令牌合并
通过可学习的删除门控机制动态决定令牌保留或删除,有效缩短序列长度
高效字节处理
直接处理UTF-8字节流,无需分词器,支持多语言处理
软删除训练
采用softmax1注意力机制和PI控制器实现稳定的删除率控制

模型能力

多语言文本生成
序列到序列转换
高效字节级处理

使用案例

学术研究
语言模型效率研究
用于研究动态令牌合并对模型效率的影响
序列长度平均缩短50%
自然语言处理
多语言文本生成
支持15种语言的文本生成任务