Trillion-7B-preview-AWQ开源多语言大模型 - 支持四国语言，计算性能更优

首页

Trillion 7B Preview AWQ

由 trillionlabs 开发

Trillion-7B预览版是一款多语言大语言模型，支持英语、韩语、日语和中文，在计算效率和性能表现上优于同类7B规模模型。

大型语言模型支持多种语言开源协议:Apache-2.0 #多语言对话 #高效推理 #韩语优化

下载量 22

发布时间 : 3/20/2025

模型简介

这是Trillion系列大语言模型的先行版本，专注于突破多语言扩展与性能边界，采用RoPE位置编码和SwiGLU激活的Transformer架构。

模型特点

高效计算性能

以约9.3×10²² FLOPs的训练计算量实现66.5%的平均性能表现，显著优于同类7B规模模型

多语言优化

特别优化英语、韩语、日语和中文处理能力，在韩语基准测试中表现突出

长上下文支持

支持4,096 tokens的上下文长度，适合处理长文档和复杂对话

易量化支持

提供GGUF格式和AWQ量化版本，便于在不同硬件上部署

模型能力

多语言文本生成

指令遵循

知识检索

编程辅助

数学推理

逻辑推理

对话系统

使用案例

智能助手

多语言聊天机器人

构建支持英语、韩语、日语和中文的智能对话系统

在KO-MT-Bench韩语对话基准中获得6.27分

教育辅助

语言学习工具

用于生成多语言学习材料和练习题

在Global-MMLU-Lite多语言知识测试中表现优异

开发辅助

代码生成与解释

帮助开发者编写和优化代码

在HumanEval编程基准测试中达到55.48%的pass@1准确率

🚀 Trillion-7B-preview

Trillion-7B-preview是我们最新大语言模型的预览版，旨在突破多语言可扩展性和性能的界限，为用户提供更高效、更强大的语言处理能力。

🚀 快速开始

以下是一个使用 apply_chat_template 的代码片段，展示了如何加载分词器和模型并生成文本。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "trillionlabs/Trillion-7B-preview"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Tell me a hilarious knock knock joke."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    model_inputs["input_ids"],
    attention_mask=model_inputs["attention_mask"],
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

"""
Sure! Here's a classic knock-knock joke that's guaranteed to make you chuckle:
Knock, knock.
Who's there?
Lettuce.
Lettuce who?
Lettuce in, it's too cold out here!
"""

✨ 主要特性

性能卓越

将Trillion-7B-preview与其他竞争模型的训练FLOPs进行性能比较时，我们的模型推动了帕累托前沿，在使用显著更少的计算资源（约9.3×10²² FLOPs）的情况下，实现了约66.5%的平均性能。它优于Mistral-7B-Instruct-v0.3和SOLAR-10.7B-Instruct-v1.0等模型，同时与需要3 - 8倍计算资源的模型（如Qwen2.5-7B-Instruct和EXAONE-3.5-7.8B-Instruct）保持竞争力。完整的基准测试结果见以下表格。

Average Performance vs. Approximate Training FLOPs

模型信息

属性	详情
模型类型	因果语言模型
训练阶段	预训练和后训练
架构	带有RoPE、SwiGLU、RMSNorm的Transformer解码器
参数数量	77.6亿
层数	32
注意力头数量	32
上下文长度	4096
所见令牌数量	2T
词汇表大小	128128

📚 详细文档

评估指标

我们选择了各种各样的基准测试，以评估模型的通用推理、知识回忆、编码能力、数学推理和指令遵循能力。我们将Trillion-7B-preview与几个类似规模的领先大语言模型进行了评估。我们的模型在韩语基准测试中表现尤其出色。

完整评估设置

基准测试	语言	评估设置	指标
通用推理和阅读理解
• HellaSwag	英语	零样本	准确率
• TruthfulQA_mc1	英语	6样本	准确率
• TruthfulQA_mc2	英语	6样本	准确率
• ARC:C	英语	零样本	准确率
• HAERAE	韩语	3样本	准确率
• KoBEST	韩语	5样本	准确率
• BBH	英语	零样本，思维链	准确率
• xwinograd_en	英语	零样本	准确率
• xwinograd_jp	日语	零样本	准确率
• xwinograd_zh	中文	零样本	准确率
知识回忆
• KMMLU	韩语	5样本	准确率
• MMLU	英语	5样本	准确率
• Global-MMLU-Lite-en	英语	5样本	准确率
• Global-MMLU-Lite-ko	韩语	5样本	准确率
• Global-MMLU-Lite-ja	日语	5样本	准确率
• Global-MMLU-Lite-zh	中文	5样本	准确率
编码
• HumanEval	英语	零样本，思维链	pass@1
• MBPP	英语	零样本，思维链	pass@1
数学推理
• GSM8k	英语	零样本，思维链	精确匹配
• MATH	英语	零样本，思维链	精确匹配
• GPQA	英语	4样本	准确率
• HRM8k	韩语	零样本，思维链	精确匹配
指令遵循和聊天
• IFEval	英语	零样本	严格平均
• koIFEval*	韩语	零样本	严格平均
• MT-Bench**	英语	大语言模型作为评判（gpt-4o-2024-08-06）	大语言模型评分
• KO-MT-Bench**	韩语	大语言模型作为评判（gpt-4o-2024-08-06）	大语言模型评分
• LogicKor**	韩语	大语言模型作为评判（gpt-4o-2024-08-06）	大语言模型评分

*注意，koIFEval是我们用于评估韩语指令遵循能力的内部评估基准。
**注意，MT-Bench、KO-MT-Bench和LogicKor使用10分制。

基准测试结果

通用推理和事实性

基准测试	Trillion-7B-preview	EXAONE-3.5-7.8B-Instruct	gemma-2-9b-it	Llama-3.1-8B-Instruct	Qwen2.5-7B-Instruct	SOLAR-10.7B-Instruct-v1.0	Mistral-7B-Instruct-v0.3
HellaSwag	58.94	60.04	59.72	59.81	61.97	68.72	65.79
TruthfulQA_mc1	36.10	40.64	42.96	38.07	47.74	56.18	42.47
TruthfulQA_mc2	54.10	59.74	60.09	54.54	64.72	70.64	59.41
ARC:C	54.44	56.40	62.97	53.58	52.99	60.07	58.11
HAERAE	80.02	76.08	68.01	63.15	65.17	60.86	47.75
KoBEST	79.61	78.57	79.98	70.09	79.24	75.20	66.50
KMMLU	48.09	45.39	46.66	41.41	50.15	41.66	33.59
MMLU	63.52	65.65	72.24	68.32	74.23	65.20	61.84
Global-MMLU-Lite-en	67.75	69.50	76.25	67.50	77.25	71.75	65.50
Global-MMLU-Lite-ko	60.75	60.00	64.25	54.00	59.25	53.75	43.00
Global-MMLU-Lite-ja	60.75	45.75	66.50	54.50	65.75	50.75	50.00
Global-MMLU-Lite-zh	59.50	50.00	63.75	60.25	68.75	57.00	47.25
BBH	41.94	53.30	28.77	43.16	53.68	52.91	45.09
xwinograd_en	87.78	87.10	89.55	88.09	85.63	87.35	88.39
xwinograd_jp	79.98	74.45	80.92	76.02	72.89	72.58	70.70
xwinograd_zh	73.81	69.44	68.06	76.19	81.55	74.60	71.83

编码

基准测试	Trillion-7B-preview	EXAONE-3.5-7.8B-Instruct	gemma-2-9b-it	Llama-3.1-8B-Instruct	Qwen2.5-7B-Instruct	SOLAR-10.7B-Instruct-v1.0	Mistral-7B-Instruct-v0.3
HumanEval	55.48	79.26	60.98	67.68	81.71	34.76	36.59
MBPP	40.40	61.40	8.40	39.20	51.00	29.40	36.00

数学推理

基准测试	Trillion-7B-preview	EXAONE-3.5-7.8B-Instruct	gemma-2-9b-it	Llama-3.1-8B-Instruct	Qwen2.5-7B-Instruct	SOLAR-10.7B-Instruct-v1.0	Mistral-7B-Instruct-v0.3
GSM8k	72.25	87.79	73.69	74.98	88.86	62.93	35.94
MATH	32.70	70.68	-	38.30	71.50	14.38	12.12
GPQA	32.81	38.61	36.83	30.58	34.15	28.35	32.59
HRM8k	30.10	38.99	16.04	-	41.51	20.68	7.89

指令遵循和聊天

基准测试	Trillion-7B-preview	EXAONE-3.5-7.8B-Instruct	gemma-2-9b-it	Llama-3.1-8B-Instruct	Qwen2.5-7B-Instruct	SOLAR-10.7B-Instruct-v1.0	Mistral-7B-Instruct-v0.3
IFEval	79.13	81.42	75.48	74.93	75.85	51.61	52.64
koIFEval	66.58	54.65	43.30	36.07	48.55	26.12	34.22
MT-Bench	7.00	8.15	7.81	6.32	7.86	6.76	6.84
KO-MT-Bench	6.27	8.13	7.01	4.27	6.31	2.89	4.07
LogicKor	8.14	9.25	8.33	6.45	7.99	1.85	4.76

局限性

语言支持：该模型针对英语、韩语、日语和中文进行了优化。使用其他语言可能会导致性能下降。
知识截止日期：模型的信息仅限于2023年8月之前可用的数据。
安全机制：此版本尚未包含全面的安全功能。未来的更新将解决这一领域的问题。
发布状态：这是一个初步发布版本，计划进行增强和更新。

许可证

此模型仓库遵循Apache-2.0许可证。

引用

@article{trillion7Bpreview,
  title={Trillion-7B-preview},
  author={trillionlabs},
  year={2025},
  url={https://huggingface.co/trillionlabs/Trillion-7B-preview}
}