M

Multilingual MiniLM L12 H384

由 microsoft 开发
MiniLM是一种小型高效的预训练语言模型,通过深度自注意力蒸馏技术压缩Transformer模型,支持多语言理解与生成任务。
下载量 28.51k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

MiniLM是基于Transformer架构的轻量级多语言模型,通过知识蒸馏技术保留了原始大模型的性能,同时显著减少参数规模,适用于跨语言文本分类、问答等任务。

模型特点

高效知识蒸馏
通过深度自注意力蒸馏技术压缩原始Transformer模型,保留核心语言理解能力
多语言支持
支持16种语言的跨语言迁移学习,使用与XLM-R相同的分词器
轻量级架构
仅12层Transformer结构,384隐藏单元,参数规模显著小于同类多语言模型

模型能力

跨语言文本分类
跨语言问答
自然语言推理
多语言文本理解

使用案例

跨语言文本分类
XNLI跨语言自然语言推理
将英语训练模型迁移到其他15种语言进行文本蕴含判断
在XNLI基准测试中平均准确率71.1%,优于同等规模的mBERT模型
问答系统
MLQA跨语言问答
基于英语训练的问答模型迁移到其他语言
在MLQA基准测试中F1分数63.2%,接近更大的XLM-R Base模型性能