L

Language Perceiver

由 deepmind 开发
基于BERT的掩码语言建模任务预训练,支持处理UTF-8字节输入的多模态Transformer模型
下载量 9,840
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

感知器IO是一种通用Transformer架构,可应用于文本、图像、音频等多种模态。该语言模型直接在原始字节上训练,无需分词器,支持掩码语言建模任务。

模型特点

字节级输入处理
直接处理UTF-8字节,无需分词器或固定词汇表
多模态架构
基础架构可扩展至图像、音频等其他模态
高效注意力机制
通过潜在向量实现与输入规模无关的计算复杂度

模型能力

文本特征提取
掩码词语预测
下游任务微调

使用案例

自然语言处理
文本补全
预测被掩码的文本部分
在示例中成功预测'缺少部分'被掩码的词语
文本分类
通过微调用于情感分析等分类任务
GLUE基准测试平均得分81.8