OLMo2-8B-SuperBPE-t160k开源语言模型 - 推理效率提升30%，免费即用

首页

Olmo2 8B SuperBPE T160k

由 UW 开发

80亿参数模型，采用创新的SuperBPE分词器，结合子词和超词标记，推理效率比传统BPE模型高30%。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #超词标记 #高效推理 #跨词边界

下载量 28

发布时间 : 3/19/2025

模型简介

基于OLMo2 7B架构构建的大语言模型，采用SuperBPE分词器，支持更高效的文本编码和生成。

模型特点

SuperBPE分词器

结合传统子词标记和创新的超词标记，跨越多词边界，显著提升编码效率。

高效推理

相比传统BPE模型，推理阶段的平均效率高出30%。

大词汇量

词汇量达20万，其中16万为子词标记，4万为超词标记。

长上下文支持

上下文长度为2,884个标记，相当于传统BPE模型4,096标记的实际字节量。

模型能力

文本生成

高效文本编码

使用案例

自然语言处理

文本生成

生成连贯、上下文相关的文本内容。

高质量文本输出，效率提升30%。

文本编码

高效编码长文本，减少标记数量。

更少的标记编码等量文本。

🚀 SuperBPE

SuperBPE是一个80亿参数的模型，使用SuperBPE分词器从头开始训练。它通过扩展BPE算法，引入超词标记，在推理效率上比传统BPE模型平均提升30%。

🚀 快速开始

SuperBPE模型是一个基于Olmo2 7B架构和预训练数据训练的语言模型。它使用了SuperBPE分词器，该分词器扩展了传统的BPE算法，不仅包含传统的子词标记（位于单词边界内），还引入了新的超词标记（包含多个单词的部分）。由于能够用更少的标记对相同数量的文本进行编码，与使用BPE训练的模型相比，该模型在推理时的效率平均提高了30%。

该模型的上下文长度为2,884个标记（以匹配上下文长度为4,096个标记的BPE模型在字节上的有效上下文大小），并在3320亿个标记上进行了训练。分词器的词汇量为20万个，在词汇量达到16万个时从学习子词标记过渡到学习超词标记。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("UW/OLMo2-8B-SuperBPE-t160k")
model = AutoModelForCausalLM.from_pretrained("UW/OLMo2-8B-SuperBPE-t160k")

tokenizer.convert_ids_to_tokens(tokenizer.encode("By the way, I am a fan of the Milky Way."))
# ['ByĠtheĠway', ',ĠIĠamĠa', 'ĠfanĠofĠthe', 'ĠMilkyĠWay', '.']

📄 许可证

本项目采用Apache-2.0许可证。

📚 引用

@misc{liu-etal-2025-superbpe,
  title={SuperBPE: Space Travel for Language Models}, 
  author={Alisa Liu and Jonathan Hayase and Valentin Hofmann and Sewoong Oh and Noah A. Smith and Yejin Choi},
  year={2025},
  eprint={2503.13423},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2503.13423}, 
}

📦 模型信息

属性	详情
模型类型	SuperBPE 8B模型
训练数据	allenai/olmo-mix-1124
模型架构	Olmo2 7B
上下文长度	2,884个标记
训练标记数	3320亿个标记
分词器词汇量	20万个
超词标记学习起始词汇量	16万个