Tri-21B开源大语言模型 - 低令牌训练达先进性能，高效实用之选

首页

Tri 21B

由 trillionlabs 开发

Tri-21B是一款旗舰级大语言模型，仅使用2T训练令牌便达到最先进性能，重新定义了训练效率边界。

大型语言模型

Transformers

支持多种语言开源协议:其他 #高效训练 #多语言推理 #低资源高精度

下载量 223

发布时间 : 7/19/2025

模型简介

Tri-21B是一款高效的大语言模型，专注于推理能力，支持多语言，并在多个基准测试中表现优异。

模型特点

高效训练

仅使用2T令牌进行训练，远少于同类模型，同时在多个基准测试中实现70.3%的平均准确率。

突破帕累托边界

仅需2.95E+23 FLOPs，性能超过需要2-10倍计算资源的模型。

增强推理能力

训练数据集经过优化，专门提升推理能力。

先进的后训练

改进强化学习训练流程，专注于数学推理和日常使用。

多语言支持

针对韩语、英语和日语进行了特别优化。

模型能力

文本生成

问答系统

代码生成

数学推理

多语言支持

指令遵循

使用案例

教育

解释复杂概念

用简单术语解释量子计算等复杂概念

在MMLU基准测试中达到77.62%准确率

编程

代码生成

根据描述生成代码

HumanEval基准测试中达到75.61% pass@1

数学

数学问题解决

解决数学推理问题

GSM8k基准测试中达到87.95%准确率

🚀 Tri-21B大语言模型

Tri-21B是一款旗舰级大语言模型，它重新定义了大语言模型训练的效率边界。仅使用2T训练令牌，该模型便达到了最先进的性能，证明了卓越的能力并不一定需要大量的计算资源。

🚀 快速开始

以下是一个使用apply_chat_template的代码片段，展示了如何加载分词器和模型并生成文本。

Tri-21B使用示例

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "trillionlabs/Tri-21B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Explain the concept of quantum computing in simple terms."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

vLLM, SGLang部署

Tri-21B也支持使用 vLLM 和 SGLang 进行部署！

# vLLM
vllm serve trillionlabs/Tri-21B --dtype bfloat16 --max-model-len 8192

# vLLM自定义选项
vllm serve trillionlabs/Tri-21B \
    --dtype bfloat16 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.95 \
    --port 8000

# SGLang
python3 -m sglang.launch_server --model-path trillionlabs/Tri-21B --dtype bfloat16

# SGLang自定义选项
python3 -m sglang.launch_server \
    --model-path trillionlabs/Tri-21B \
    --dtype bfloat16 \
    --context-length 8192 \
    --port 30000 \
    --host 0.0.0.0

✨ 主要特性

前所未有的训练效率：仅使用2T令牌进行训练，远少于同类模型，同时在MMLU/KMMLU/Global MMLU基准测试中实现了70.3%的平均准确率。
突破帕累托边界：仅需2.95E+23 FLOPs，Tri-21B的性能便超过了那些需要2 - 10倍计算资源的模型，为高效扩展树立了新的标准。
增强推理能力：对训练数据集进行了优化，专门提升推理能力。
先进的后训练：显著改进了强化学习训练流程，专注于数学推理和日常使用。
多语言支持：针对韩语、英语和日语进行了特别优化。

📦 模型规格

Tri-21B

属性	详情
模型类型	因果语言模型
训练阶段	预训练和后训练
架构	带有RoPE、SwiGLU、RMSNorm和GQA的Transformer解码器
参数数量	207.3亿
层数	32
注意力头数量	32（查询）/ 8（键、值）
上下文长度	8192
所见令牌数量	2T
词汇表大小	124416

📚 训练效率分析

我们的训练效率方法在该领域树立了新的标杆。以下对比展示了Tri-21B与其他类似规模的先进模型相比，如何在每个FLOP上实现更优的性能：

模型	FLOPs	平均准确率¹	效率比²
Tri-21B	2.95E+23	70.3%	1.00x（基准）
Gemma2-9b	4.42E+23	61.5%	0.48x
Qwen2.5-7B	8.22E+23	63.4%	0.29x
Exaone-3.5-32B	1.25E+24	58.5%	0.19x
Gemma 3 IT 27B	2.27E+24	67.6%	0.11x
Qwen2.5-32B	3.46E+24	74.6%	0.10x
Qwen3-32B	5.77E+24	73.5%	0.06x

¹ MMLU / KMMLU / Global MMLU (ja) 的平均值
² 相对于Tri-21B的每FLOP性能

这种效率突破使组织能够在没有传统计算障碍的情况下部署先进的语言模型，使更多人能够使用先进的人工智能能力。

📚 评估

我们在一系列综合基准测试中对Tri-21B进行了评估，这些测试涵盖了一般推理、知识回忆、编码能力、数学推理和指令遵循能力。我们将我们的模型与类似规模的最先进模型Gemmma-3-IT-27B和Qwen3-32B进行了比较，以展示其具有竞争力的性能。

完整评估设置

# 基准测试评估设置

基准测试	语言	评估设置	指标
一般推理和事实性
• HellaSwag	英语	0-shot	准确率
• ARC:C	英语	0-shot	准确率
• HAERAE	韩语	3-shot	准确率
• CLIcK	韩语	0-shot	准确率
• KoBEST	韩语	5-shot	准确率
知识和推理
• KMMLU	韩语	5-shot (0-shot, CoT)	准确率（精确匹配）
• MMLU	英语	5-shot (0-shot, CoT)	准确率（精确匹配）
• MMLU-Pro	英语	0-shot, CoT	精确匹配
• Global-MMLU-Lite-ja	日语	5-shot	准确率
编码
• HumanEval	英语	0-shot	pass@1
• MBPPPlus	英语	0-shot	pass@1
数学推理
• GSM8k	英语	0-shot, CoT	精确匹配
• MATH	英语	0-shot, CoT	精确匹配
• GPQA	英语	4-shot	准确率
• GPQA Diamond	英语	0-shot, CoT	准确率
• HRM8k	韩语	0-shot, CoT	精确匹配
指令遵循和聊天
• IFEval	英语	0-shot	严格平均
• koIFEval	韩语	0-shot	严格平均
• MT-Bench	英语	LLM作为评判（gpt-4o）	LLM分数
• KO-MT-Bench	韩语	LLM作为评判（gpt-4o）	LLM分数
• systemIFEval	英语	0-shot	严格平均

*注意，koIFEval、systemIFEval和KoRuler是我们内部的评估基准，适用于韩语，以更好地评估模型在韩语任务中的能力。
**注意，MT-Bench、KO-MT-Bench和LogicKor使用10分制。

基准测试结果

参与比较的模型：

Tri-21B：我们的旗舰210亿参数模型
Qwen3-32B：Qwen的320亿参数模型
Gemma3-IT-27B：谷歌的Gemma 3指令微调270亿参数模型

一般推理和事实性

基准测试	Tri-21B	Qwen3-32B	Gemma3-IT-27B
HAERAE	86.16	71.67	78.09
KoBEST	85.92	83.39	87.66
CLIcK	72.32	66.89	67.54
KMMLU	61.89 (69.90)	61.73 (67.55)	55.03 (60.61)
MMLU	77.62 (85.02)	81.86 (84.46)	77.42 (84.09)
MMLU-Pro	64.74	70.53	64.26
Global-MMLU-Lite-ja	70.25	77.00	72.00