Tri 21B
模型简介
Tri-21B是一款高效的大语言模型,专注于推理能力,支持多语言,并在多个基准测试中表现优异。
模型特点
高效训练
仅使用2T令牌进行训练,远少于同类模型,同时在多个基准测试中实现70.3%的平均准确率。
突破帕累托边界
仅需2.95E+23 FLOPs,性能超过需要2-10倍计算资源的模型。
增强推理能力
训练数据集经过优化,专门提升推理能力。
先进的后训练
改进强化学习训练流程,专注于数学推理和日常使用。
多语言支持
针对韩语、英语和日语进行了特别优化。
模型能力
文本生成
问答系统
代码生成
数学推理
多语言支持
指令遵循
使用案例
教育
解释复杂概念
用简单术语解释量子计算等复杂概念
在MMLU基准测试中达到77.62%准确率
编程
代码生成
根据描述生成代码
HumanEval基准测试中达到75.61% pass@1
数学
数学问题解决
解决数学推理问题
GSM8k基准测试中达到87.95%准确率
🚀 Tri-21B大语言模型
Tri-21B是一款旗舰级大语言模型,它重新定义了大语言模型训练的效率边界。仅使用2T训练令牌,该模型便达到了最先进的性能,证明了卓越的能力并不一定需要大量的计算资源。
🚀 快速开始
以下是一个使用apply_chat_template
的代码片段,展示了如何加载分词器和模型并生成文本。
Tri-21B使用示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "trillionlabs/Tri-21B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Explain the concept of quantum computing in simple terms."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
vLLM, SGLang部署
Tri-21B也支持使用 vLLM 和 SGLang 进行部署!
# vLLM
vllm serve trillionlabs/Tri-21B --dtype bfloat16 --max-model-len 8192
# vLLM自定义选项
vllm serve trillionlabs/Tri-21B \
--dtype bfloat16 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95 \
--port 8000
# SGLang
python3 -m sglang.launch_server --model-path trillionlabs/Tri-21B --dtype bfloat16
# SGLang自定义选项
python3 -m sglang.launch_server \
--model-path trillionlabs/Tri-21B \
--dtype bfloat16 \
--context-length 8192 \
--port 30000 \
--host 0.0.0.0
✨ 主要特性
- 前所未有的训练效率:仅使用2T令牌进行训练,远少于同类模型,同时在MMLU/KMMLU/Global MMLU基准测试中实现了70.3%的平均准确率。
- 突破帕累托边界:仅需2.95E+23 FLOPs,Tri-21B的性能便超过了那些需要2 - 10倍计算资源的模型,为高效扩展树立了新的标准。
- 增强推理能力:对训练数据集进行了优化,专门提升推理能力。
- 先进的后训练:显著改进了强化学习训练流程,专注于数学推理和日常使用。
- 多语言支持:针对韩语、英语和日语进行了特别优化。
📦 模型规格
Tri-21B
属性 | 详情 |
---|---|
模型类型 | 因果语言模型 |
训练阶段 | 预训练和后训练 |
架构 | 带有RoPE、SwiGLU、RMSNorm和GQA的Transformer解码器 |
参数数量 | 207.3亿 |
层数 | 32 |
注意力头数量 | 32(查询)/ 8(键、值) |
上下文长度 | 8192 |
所见令牌数量 | 2T |
词汇表大小 | 124416 |
📚 训练效率分析
我们的训练效率方法在该领域树立了新的标杆。以下对比展示了Tri-21B与其他类似规模的先进模型相比,如何在每个FLOP上实现更优的性能:
模型 | FLOPs | 平均准确率¹ | 效率比² |
---|---|---|---|
Tri-21B | 2.95E+23 | 70.3% | 1.00x(基准) |
Gemma2-9b | 4.42E+23 | 61.5% | 0.48x |
Qwen2.5-7B | 8.22E+23 | 63.4% | 0.29x |
Exaone-3.5-32B | 1.25E+24 | 58.5% | 0.19x |
Gemma 3 IT 27B | 2.27E+24 | 67.6% | 0.11x |
Qwen2.5-32B | 3.46E+24 | 74.6% | 0.10x |
Qwen3-32B | 5.77E+24 | 73.5% | 0.06x |
¹ MMLU / KMMLU / Global MMLU (ja) 的平均值
² 相对于Tri-21B的每FLOP性能
这种效率突破使组织能够在没有传统计算障碍的情况下部署先进的语言模型,使更多人能够使用先进的人工智能能力。
📚 评估
我们在一系列综合基准测试中对Tri-21B进行了评估,这些测试涵盖了一般推理、知识回忆、编码能力、数学推理和指令遵循能力。我们将我们的模型与类似规模的最先进模型Gemmma-3-IT-27B和Qwen3-32B进行了比较,以展示其具有竞争力的性能。
完整评估设置
# 基准测试评估设置基准测试 | 语言 | 评估设置 | 指标 |
---|---|---|---|
一般推理和事实性 | |||
• HellaSwag | 英语 | 0-shot | 准确率 |
• ARC:C | 英语 | 0-shot | 准确率 |
• HAERAE | 韩语 | 3-shot | 准确率 |
• CLIcK | 韩语 | 0-shot | 准确率 |
• KoBEST | 韩语 | 5-shot | 准确率 |
知识和推理 | |||
• KMMLU | 韩语 | 5-shot (0-shot, CoT) | 准确率(精确匹配) |
• MMLU | 英语 | 5-shot (0-shot, CoT) | 准确率(精确匹配) |
• MMLU-Pro | 英语 | 0-shot, CoT | 精确匹配 |
• Global-MMLU-Lite-ja | 日语 | 5-shot | 准确率 |
编码 | |||
• HumanEval | 英语 | 0-shot | pass@1 |
• MBPPPlus | 英语 | 0-shot | pass@1 |
数学推理 | |||
• GSM8k | 英语 | 0-shot, CoT | 精确匹配 |
• MATH | 英语 | 0-shot, CoT | 精确匹配 |
• GPQA | 英语 | 4-shot | 准确率 |
• GPQA Diamond | 英语 | 0-shot, CoT | 准确率 |
• HRM8k | 韩语 | 0-shot, CoT | 精确匹配 |
指令遵循和聊天 | |||
• IFEval | 英语 | 0-shot | 严格平均 |
• koIFEval | 韩语 | 0-shot | 严格平均 |
• MT-Bench | 英语 | LLM作为评判(gpt-4o) | LLM分数 |
• KO-MT-Bench | 韩语 | LLM作为评判(gpt-4o) | LLM分数 |
• systemIFEval | 英语 | 0-shot | 严格平均 |
- *注意,koIFEval、systemIFEval和KoRuler是我们内部的评估基准,适用于韩语,以更好地评估模型在韩语任务中的能力。
- **注意,MT-Bench、KO-MT-Bench和LogicKor使用10分制。
基准测试结果
参与比较的模型:
- Tri-21B:我们的旗舰210亿参数模型
- Qwen3-32B:Qwen的320亿参数模型
- Gemma3-IT-27B:谷歌的Gemma 3指令微调270亿参数模型
一般推理和事实性
基准测试 | Tri-21B | Qwen3-32B | Gemma3-IT-27B |
---|---|---|---|
HAERAE | 86.16 | 71.67 | 78.09 |
KoBEST | 85.92 | 83.39 | 87.66 |
CLIcK | 72.32 | 66.89 | 67.54 |
KMMLU | 61.89 (69.90) | 61.73 (67.55) | 55.03 (60.61) |
MMLU | 77.62 (85.02) | 81.86 (84.46) | 77.42 (84.09) |
MMLU-Pro | 64.74 | 70.53 | 64.26 |
Global-MMLU-Lite-ja | 70.25 | 77.00 | 72.00 |
编码
基准测试 | Tri-21B | Qwen3-32B | Gemma3-IT-27B |
---|---|---|---|
HumanEval | 75.61 | 74.39 | 87.80 |
MBPPPlus | 73.02 | 74.40 | 84.92 |
数学推理
基准测试 | Tri-21B | Qwen3-32B | Gemma3-IT-27B |
---|---|---|---|
GSM8k | 87.95 | 86.66 | 90.52 |
MATH | 77.60 | 81.40 | 85.00 |
GPQA | 39.73 | 41.07 | 37.95 |
GPQA-Diamond | 44.95 | 54.04 | 44.44 |
HRM8k | 56.70 | 66.24 | 63.90 |
指令遵循和聊天
基准测试 | Tri-21B | Qwen3-32B | Gemma3-IT-27B |
---|---|---|---|
IFEval | 80.75 | 86.08 | 80.78 |
koIFEval | 66.51 | 62.93 | 69.24 |
MT-Bench | 8.21 | 8.52 | 8.53 |
KO-MT-Bench | 7.79 | 8.47 | 8.46 |
systemIFEval | 77.40 | 77.92 | 77.94 |
基础模型评估
下表显示了Tri-21B基础模型(指令微调前)在关键基准测试中的性能:
基准测试 | Tri-21B基础模型 |
---|---|
MMLU | 76.99 |
KMMLU | 62.37 |
KoBEST | 85.07 |
BBH | 77.19 |
GSM8K | 70.36 |
MBPPPlus | 75.40 |
🔧 模型局限
- 语言支持:该模型针对英语、韩语和日语进行了优化。使用其他语言可能会导致性能下降。
- 知识截止日期:模型的信息仅限于2025年2月之前可用的数据。
📄 许可证
此模型仓库遵循Trillion许可证。
📞 联系我们
如有疑问,请联系:info@trillionlabs.co
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文