license: apache-2.0
tags:
- 微调模型
- 对话系统
- 易量化
- GGUF格式
- AWQ量化
- 易量化技术
- AWQ算法
language:
- 英语
- 韩语
- 日语
- 中文
pipeline_tag: 文本生成
library_name: transformers
base_model:
- trillionlabs/Trillion-7B-preview
Trillion-7B预览版
模型介绍
我们推出Trillion-7B预览版,这是我们最新大语言模型的先行版本,旨在突破多语言扩展与性能的边界。
在计算效率对比中,Trillion-7B预览版以约9.3×10²² FLOPs的训练计算量,实现了66.5%的平均性能表现,显著优于Mistral-7B-Instruct-v0.3和SOLAR-10.7B-Instruct-v1.0等竞品,并与计算量需求高出3-8倍的Qwen2.5-7B-Instruct、EXAONE-3.5-7.8B-Instruct等模型保持竞争力。完整基准测试结果详见下方表格。
- 模型类型:因果语言模型
- 训练阶段:预训练 & 后训练
- 架构:采用RoPE位置编码、SwiGLU激活、RMSNorm的Transformer解码器
- 参数量:77.6亿
- 层数:32
- 注意力头数:32
- 上下文长度:4,096 tokens
- 训练token量:2万亿
- 词表大小:128,128
快速开始
以下代码示例展示如何使用apply_chat_template
加载分词器与模型并生成文本:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "trillionlabs/Trillion-7B-preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "讲个超级搞笑的敲门笑话。"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
model_inputs["input_ids"],
attention_mask=model_inputs["attention_mask"],
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
"""
没问题!来个经典敲门笑话保证让你笑出声:
咚咚咚。
谁呀?
生菜。
生菜谁?
生菜开门啦,外面太冷了!
"""
性能评估
我们选取了涵盖通用推理、知识检索、编程能力、数学推理和指令遵循的多样化基准测试集。在与同类大语言模型的对比中,Trillion-7B预览版尤其在韩语基准测试中表现突出。
完整评估设置
测试集 |
语言 |
评估设置 |
指标 |
通用推理与阅读理解 |
|
|
|
• HellaSwag |
英语 |
0样本 |
准确率 |
• TruthfulQA_mc1 |
英语 |
6样本 |
准确率 |
• TruthfulQA_mc2 |
英语 |
6样本 |
准确率 |
• ARC:C |
英语 |
0样本 |
准确率 |
• HAERAE |
韩语 |
3样本 |
准确率 |
• KoBEST |
韩语 |
5样本 |
准确率 |
• BBH |
英语 |
0样本,思维链 |
准确率 |
• xwinograd_en |
英语 |
0样本 |
准确率 |
• xwinograd_jp |
日语 |
0样本 |
准确率 |
• xwinograd_zh |
中文 |
0样本 |
准确率 |
知识检索 |
|
|
|
• KMMLU |
韩语 |
5样本 |
准确率 |
• MMLU |
英语 |
5样本 |
准确率 |
• Global-MMLU-Lite-en |
英语 |
5样本 |
准确率 |
• Global-MMLU-Lite-ko |
韩语 |
5样本 |
准确率 |
• Global-MMLU-Lite-ja |
日语 |
5样本 |
准确率 |
• Global-MMLU-Lite-zh |
中文 |
5样本 |
准确率 |
编程能力 |
|
|
|
• HumanEval |
英语 |
0样本,思维链 |
pass@1 |
• MBPP |
英语 |
0样本,思维链 |
pass@1 |
数学推理 |
|
|
|
• GSM8k |
英语 |
0样本,思维链 |
精确匹配 |
• MATH |
英语 |
0样本,思维链 |
精确匹配 |
• GPQA |
英语 |
4样本 |
准确率 |
• HRM8k |
韩语 |
0样本,思维链 |
精确匹配 |
指令遵循与对话 |
|
|
|
• IFEval |
英语 |
0样本 |
严格平均分 |
• koIFEval* |
韩语 |
0样本 |
严格平均分 |
• MT-Bench** |
英语 |
GPT-4o裁判 (2024-08-06版) |
LLM评分 |
• KO-MT-Bench** |
韩语 |
GPT-4o裁判 (2024-08-06版) |
LLM评分 |
• LogicKor** |
韩语 |
GPT-4o裁判 (2024-08-06版) |
LLM评分 |
- *koIFEval是我们用于评估韩语指令遵循能力的内部基准
- **MT-Bench、KO-MT-Bench和LogicKor采用10分制评分
基准测试结果
对比模型:
通用推理与事实性
测试集 |
Trillion-7B-preview |
EXAONE-3.5-7.8B-Instruct |
gemma-2-9b-it |
Llama-3.1-8B-Instruct |
Qwen2.5-7B-Instruct |
SOLAR-10.7B-Instruct-v1.0 |
Mistral-7B-Instruct-v0.3 |
HellaSwag |
58.94 |
60.04 |
59.72 |
59.81 |
61.97 |
68.72 |
65.79 |
TruthfulQA_mc1 |
36.10 |
40.64 |
42.96 |
38.07 |
47.74 |
56.18 |
42.47 |
TruthfulQA_mc2 |
54.10 |
59.74 |
60.09 |
54.54 |
64.72 |
70.64 |
59.41 |
ARC:C |
54.44 |
56.40 |
62.97 |
53.58 |
52.99 |
60.07 |
58.11 |
HAERAE |
80.02 |
76.08 |
68.01 |
63.15 |
65.17 |
60.86 |
47.75 |
KoBEST |
79.61 |
78.57 |
79.98 |
70.09 |
79.24 |
75.20 |
66.50 |
KMMLU |
48.09 |
45.39 |
46.66 |
41.41 |
50.15 |
41.66 |
33.59 |
MMLU |
63.52 |
65.65 |
72.24 |
68.32 |
74.23 |
65.20 |
61.84 |
Global-MMLU-Lite-en |
67.75 |
69.50 |
76.25 |
67.50 |
77.25 |
71.75 |
65.50 |
Global-MMLU-Lite-ko |
60.75 |
60.00 |
64.25 |
54.00 |
59.25 |
53.75 |
43.00 |
Global-MMLU-Lite-ja |
60.75 |
45.75 |
66.50 |
54.50 |
65.75 |
50.75 |
50.00 |
Global-MMLU-Lite-zh |
59.50 |
50.00 |
63.75 |
60.25 |
68.75 |
57.00 |
47.25 |
BBH |
41.94 |
53.30 |
28.77 |
43.16 |
53.68 |
52.91 |
45.09 |
xwinograd_en |
87.78 |
87.10 |
89.55 |
88.09 |
85.63 |
87.35 |
88.39 |
xwinograd_jp |
79.98 |
74.45 |
80.92 |
76.02 |
72.89 |
72.58 |
70.70 |
xwinograd_zh |
73.81 |
69.44 |
68.06 |
76.19 |
81.55 |
74.60 |
71.83 |
编程能力
测试集 |
Trillion-7B-preview |
EXAONE-3.5-7.8B-Instruct |
gemma-2-9b-it |
Llama-3.1-8B-Instruct |
Qwen2.5-7B-Instruct |
SOLAR-10.7B-Instruct-v1.0 |
Mistral-7B-Instruct-v0.3 |
HumanEval |
55.48 |
79.26 |
60.98 |
67.68 |
81.71 |
34.76 |
36.59 |
MBPP |
40.40 |
61.40 |
8.40 |
39.20 |
51.00 |
29.40 |
36.00 |
数学推理
测试集 |
Trillion-7B-preview |
EXAONE-3.5-7.8B-Instruct |
gemma-2-9b-it |
Llama-3.1-8B-Instruct |
Qwen2.5-7B-Instruct |
SOLAR-10.7B-Instruct-v1.0 |
Mistral-7B-Instruct-v0.3 |
GSM8k |
72.25 |
87.79 |
73.69 |
74.98 |
88.86 |
62.93 |
35.94 |
MATH |
32.70 |
70.68 |
- |
38.30 |
71.50 |
14.38 |
12.12 |
GPQA |
32.81 |
38.61 |
36.83 |
30.58 |
34.15 |
28.35 |
32.59 |
HRM8k |
30.10 |
38.99 |
16.04 |
- |
41.51 |
20.68 |
7.89 |
指令遵循与对话
测试集 |
Trillion-7B-preview |
EXAONE-3.5-7.8B-Instruct |
gemma-2-9b-it |
Llama-3.1-8B-Instruct |
Qwen2.5-7B-Instruct |
SOLAR-10.7B-Instruct-v1.0 |
Mistral-7B-Instruct-v0.3 |
IFEval |
79.13 |
81.42 |
75.48 |
74.93 |
75.85 |
51.61 |
52.64 |
koIFEval |
66.58 |
54.65 |
43.30 |
36.07 |
48.55 |
26.12 |
34.22 |
MT-Bench |
7.00 |
8.15 |
7.81 |
6.32 |
7.86 |
6.76 |
6.84 |
KO-MT-Bench |
6.27 |
8.13 |
7.01 |
4.27 |
6.31 |
2.89 |
4.07 |
LogicKor |
8.14 |
9.25 |
8.33 |
6.45 |
7.99 |
1.85 |
4.76 |
局限性
- 语言支持:主要优化英语、韩语、日语和中文,其他语言可能性能下降
- 知识截止:模型信息更新至2023年8月
- 安全机制:当前版本未完全集成安全防护功能,后续版本将完善
- 发布状态:此为预览版本,后续将推出功能增强的更新
许可协议
本模型遵循Apache-2.0开源协议。
引用
@article{trillion7Bpreview,
title={Trillion-7B-preview},
author={trillionlabs},
year={2025},
url={https://huggingface.co/trillionlabs/Trillion-7B-preview}
}
联系我们
咨询邮箱:info@trillionlabs.co