license: apache-2.0
XGen-7B-8K-基础模型
Salesforce AI Research 正式发布的 XGen 系列模型(7B
)研究版本:
论文标题: 使用XGen进行长序列建模:基于8K输入序列长度训练的7B大语言模型
作者列表: Erik Nijkamp*, 谢天*, Hiroaki Hayashi*, Bo Pang*, 夏从英*, 陈星, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, 牛彤, Wojciech Kryscinski, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, 刘烨, 孟瑞, 涂立夫, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong.
(*标注作者为同等贡献者)
通讯联系人: Shafiq Rayhan Joty, Caiming Xiong
模型系列
基础模型
指令微调模型
基于公开领域指令数据进行监督微调的模型。仅限研究用途发布。
运行指南
模型训练数据使用OpenAI Tiktoken库进行分词处理。
使用前请通过pip
安装依赖包:
pip install tiktoken
可通过自回归采样方式调用模型:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)
inputs = tokenizer("世界是", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
伦理声明
本版本仅为支持学术论文的研究目的发布。我们的模型、数据集和代码并非针对所有下游用途专门设计或评估。强烈建议用户在部署前评估并解决可能涉及的准确性、安全性和公平性问题。我们鼓励用户充分考虑AI的通用局限性,遵守适用法律,在选择应用场景时(特别是可能显著影响人们生活、权利或安全的高风险场景)采用最佳实践。更多使用指南请参考我们的AUP和AI AUP政策。
引用格式
@misc{XGen,
title={使用XGen进行长序列建模:基于8K输入序列长度训练的7B大语言模型},
author={Erik Nijkamp, 谢天, Hiroaki Hayashi, Bo Pang, 夏从英, 陈星, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, 牛彤, Wojciech Kryscinski, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, 刘烨, 孟瑞, 涂立夫, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, 周英波, Shafiq Rayhan Joty, 熊才明},
howpublished={ArXiv},
year={2023},
url={https://arxiv.org/abs/2309.03450}
}