许可证:apache-2.0
语言:
- 英文
- 日文
任务标签:文本生成
库名称:transformers
PLaMo 2 1B
模型描述
PLaMo 2 1B 是由 Preferred Elements 公司开发的 10 亿参数模型,基于英文和日文数据集进行预训练。
PLaMo 2 系列模型采用了类似 Samba 的混合架构而非传统 Transformer 架构。Samba 融合了选择性状态空间模型 Mamba 与滑动窗口注意力机制,结合两者优势以提升效率和性能。PLaMo 2 与 Samba 的主要区别在于:1) 增加归一化层以提高训练稳定性;2) 使用 Mamba2 内核提升计算效率。
本模型基于 Apache 2.0 许可证发布。
注意:该模型未针对对话或其他下游任务进行指令微调。
使用方法
环境要求
numpy>=1.26.4
numba>=0.60.0
torch>=2.4.1
transformers>=4.44.2
mamba_ssm>=2.2.2
causal_conv1d>=1.4.0
使用流水线高阶接口
import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-2-1b", trust_remote_code=True)
print(pipeline("人工智能技术的未来在于", max_new_tokens=32))
直接加载模型
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-2-1b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-2-1b", trust_remote_code=True)
text = "これからの人工知能技術は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
inputs=input_ids,
max_new_tokens=32,
do_sample=True,
top_k=50,
top_p=0.95,
temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)
模型详情
- 参数量:10 亿
- 训练 token 数:4 万亿
- 开发机构:Preferred Elements 公司
- 模型类型:仅解码因果模型
- 支持语言:英文、日文
- 许可证:Apache 2.0
训练数据集
训练分为两个阶段:第一阶段 3.5 万亿 token,第二阶段 0.5 万亿 token。各阶段数据比例如下表:
|
3.5T(第一阶段) |
0.5T(第二阶段) |
总 token 数 |
英文 |
45% |
35% |
1.75 万亿 |
日文 |
30% |
40% |
1.25 万亿 |
代码 |
15% |
15% |
0.6 万亿 |
其他 |
10% |
10% |
0.4 万亿 |
分词器
PLaMo 2 1B 的分词器通过数值计算 JIT 编译器 numba 优化,基于预训练数据子集训练而成。
技术博客
- (日文)https://tech.preferred.jp/ja/blog/plamo-2/
- (日文)https://tech.preferred.jp/ja/blog/plamo-2-tokenizer/
偏见、风险与限制
作为新兴技术,PLaMo 2 1B 存在使用风险。当前测试仅覆盖英文和日文场景,无法涵盖所有情况。与其他大语言模型类似,其输出可能存在不可预测的偏差或不准确内容。开发者应在实际应用前进行针对性安全测试与调优。
致谢
本模型开发受日本新能源产业技术综合开发机构(NEDO)资助,项目编号 JPNP 20017,属"后 5G 信息通信系统强化基础设施研发项目"。
Preferred Networks 集团 AI 政策
- (英文)https://www.preferred.jp/en/company/aipolicy/
- (日文)https://www.preferred.jp/ja/company/aipolicy/