L

Lola V1

由 dice-research 开发
LOLA是基于稀疏混合专家(Mixture-of-Experts)Transformer架构、支持160多种语言的超大规模多语言大模型,在自然语言生成与理解任务中具有竞争优势。
下载量 867
发布时间 : 4/2/2024
模型介绍
内容详情
替代品

模型简介

LOLA是一个开源的多语言大模型,采用GPT2风格的纯解码器架构,结合稀疏混合专家技术,支持160多种语言的文本生成任务。

模型特点

多语言支持
支持160多种语言,在多语言自然语言处理任务中表现优异
混合专家架构
采用16个专家的稀疏混合专家(MoE)架构,在保持效率的同时提升模型性能
开源可复现
完全开源,推动研究可复现性,为未来研究奠定基础
计算高效
通过专家路由机制优化计算资源使用,每个token仅激活部分参数

模型能力

多语言文本生成
因果语言建模
自然语言理解

使用案例

文本生成
多语言文本补全
根据给定的文本片段生成连贯的后续内容
示例:输入'敏捷的棕毛狐狸',输出'敏捷的棕毛狐狸从懒狗身上跳了过去。'
语言研究
跨语言模式分析
研究不同语言间的隐式语言谱系模式
模型揭示了专家路由机制如何利用隐式语言谱系模式