许可协议: cc-by-nc-4.0
语言:
欢迎加入xGen-small家族!
xGen-small(博客、arXiv)是一款企业级紧凑型语言模型,通过领域聚焦的数据整理、可扩展的预训练、长度扩展和强化学习微调,以可预测的低成本实现长上下文性能表现。本模型版本仅供研究用途。
模型系列
xGen-small提供两种规格(4B和9B)及两种变体(预训练版与后训练版):
模型 |
参数量总数 |
上下文长度 |
变体类型 |
下载链接 |
salesforce/xgen-small-4B-base-r |
40亿 |
128k |
预训练版 |
❤️链接 |
salesforce/xgen-small-4B-instruct-r |
40亿 |
128k |
后训练版 |
❤️链接 |
salesforce/xgen-small-9B-base-r |
90亿 |
128k |
预训练版 |
❤️链接 |
salesforce/xgen-small-9B-instruct-r |
90亿 |
128k |
后训练版 |
❤️链接 |
使用示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Salesforce/xgen-small-9B-instruct-r"
tokenizer = AutoTokenizer.from_pretrained(model_name)
device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto"
).to(device)
prompt = "什么是Salesforce?"
messages = [{"role": "用户", "content": prompt}]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
generated = model.generate(inputs, max_new_tokens=128)
output = tokenizer.decode(
generated[0],
skip_special_tokens=True,
)
print(output)
性能评估
评估类别 |
任务 |
Llama 3.1-8B |
Granite 3.3-8B |
Qwen2.5-7B |
xGen-small 9B指令版 |
通用知识与推理 |
MMLU |
68.3 |
62.7 |
72.4 |
72.4 |
通用知识与推理 |
MMLU-Pro |
43.2 |
43.5 |
56.7 |
57.3 |
对话 |
Arena-Hard-v1.0 |
28.9 |
30.5 |
48.1 |
60.1 |
对话 |
MT-Bench |
8.25 |
8.57 |
8.56 |
8.90 |
数学与科学 |
GPQA |
31.9 |
35.3 |
32.6 |
45.8 |
数学与科学 |
GSM8K |
84.2 |
89.4 |
91.9 |
95.3 |
数学与科学 |
MATH |
48.9 |
70.9 |
74.6 |
91.6 |
数学与科学 |
AIME 2024 |
6.7 |
10.0 |
6.7 |
50.0 |
编程 |
HumanEval+ |
61.6 |
65.9 |
74.4 |
78.7 |
编程 |
MBPP+ |
55.3 |
60.3 |
68.8 |
63.8 |
编程 |
LiveCodeBench |
10.3 |
10.3 |
12.1 |
50.6 |
引用文献
@misc{xgensmall,
title={xGen-small技术报告},
author={Erik Nijkamp and Bo Pang and Egor Pakhomov and Akash Gokul and Jin Qu and Silvio Savarese and Yingbo Zhou and Caiming Xiong},
year={2025},
eprint={2505.06496},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.06496},
}
伦理考量
本次发布仅为支持学术论文的研究用途。我们的模型、数据集和代码并非针对所有下游用途专门设计或评估。我们强烈建议用户在部署前评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑AI的普遍局限性,遵守适用法律,在选择应用场景时采用最佳实践,特别是对于可能显著影响人们生活、权利或安全的高风险场景。更多使用指南请参阅我们的《可接受使用政策》和《AI可接受使用政策》。
模型许可
本模型采用CC-BY-NC-4.0协议发布,版权归©Salesforce公司所有。保留所有权利。