🚀 XGen-7B-8K-Base
XGen-7B-8K-Base 是Salesforce AI Research发布的一系列 XGen 模型(7B
)的官方研究成果。该模型聚焦于长序列建模,为相关研究和应用提供了有力支持。
🚀 快速开始
模型信息
模型列表
基础模型
指令微调模型
在公共领域指令数据上进行监督微调的模型,仅用于 研究目的。
运行步骤
模型的训练数据使用OpenAI Tiktoken库进行分词。要使用此模型,请通过pip
安装相应的包:
pip install tiktoken
模型可以按如下方式用作自回归采样器:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base", torch_dtype=torch.bfloat16)
inputs = tokenizer("The world is", return_tensors="pt")
sample = model.generate(**inputs, max_length=128)
print(tokenizer.decode(sample[0]))
✨ 主要特性
- 长序列建模能力:支持8K输入序列长度的训练,能够处理更长的文本序列。
- 多模型选择:提供不同序列长度的基础模型以及指令微调模型,满足多样化的研究需求。
📄 许可证
本项目采用Apache-2.0许可证。
🔧 道德考量
本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途设计或评估。我们强烈建议用户在部署此模型之前,评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑AI的常见局限性,遵守适用法律,并在选择用例时遵循最佳实践,特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。有关用例的进一步指导,请参考我们的AUP和AI AUP。
📚 引用
如果您在研究中使用了本项目,请使用以下BibTeX引用:
@misc{XGen,
title={Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length},
author={Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryscinski, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong},
howpublished={ArXiv},
year={2023},
url={https://arxiv.org/abs/2309.03450}
}