PLaMo 2 8B开源语言模型 - 免费实现英语和日语文本生成

首页

Plamo 2 8b

由 pfnet 开发

PLaMo 2 8B是由Preferred Elements公司开发的80亿参数混合架构语言模型，支持英语和日语文本生成。

大型语言模型

Transformers

支持多种语言开源协议:其他 #日英双语生成 #混合SSM架构 #高效推理优化

下载量 401

发布时间 : 2/7/2025

模型简介

基于英语和日语数据集预训练的大规模语言基础模型，采用类似Samba的混合架构（结合选择性状态空间模型与滑动窗口注意力机制），专注于高效文本生成。

模型特点

高效混合架构

整合Mamba2选择性状态空间模型与滑动窗口注意力机制，相比传统Transformer具有更高计算效率

双语支持

针对英语和日语优化，训练数据包含6万亿token（英语45%/日语30%）

商业友好许可

年收入低于10亿日元的组织可申请商业用途许可（需注册）

训练稳定性增强

新增归一化层和改进的Mamba2内核，提升大规模训练稳定性

模型能力

英语文本生成

日语文本生成

代码生成（有限支持）

开放域问答

使用案例

内容创作

多语言内容生成

自动生成英语/日语营销文案、博客文章等

企业应用

内部知识处理

文档摘要、报告生成等组织内部非商业用途

需遵守收入限制条款

🚀 PLaMo 2 8B

PLaMo 2 8B是一款由Preferred Elements公司开发的80亿参数模型，在英文和日文数据集上进行了预训练。该模型采用了独特的架构，在效率和性能上表现出色，为自然语言处理任务提供了新的解决方案。

🚀 快速开始

环境要求

numpy>=1.26.4
numba>=0.60.0
torch>=2.4.1
transformers>=4.44.2
mamba_ssm>=2.2.2
causal_conv1d>=1.4.0

使用pipeline进行文本生成

import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-2-8b", trust_remote_code=True)
print(pipeline("The future of artificial intelligence technology is ", max_new_tokens=32))

直接加载模型

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
text = "これからの人工知能技術は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
    inputs=input_ids,
    max_new_tokens=32,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)

✨ 主要特性

独特架构：PLaMo 2系列模型采用了类似Samba的混合架构，而非传统的Transformer架构。Samba将选择性状态空间模型（SSM）Mamba与滑动窗口注意力相结合，发挥两者优势，提高了效率和性能。
训练优化：PLaMo 2在Samba的基础上进行了改进，增加了归一化层以提高训练稳定性，并使用Mamba2内核提高计算效率。

📦 安装指南

要使用PLaMo 2 8B模型，你需要安装以下依赖库：

numpy>=1.26.4
numba>=0.60.0
torch>=2.4.1
transformers>=4.44.2
mamba_ssm>=2.2.2
causal_conv1d>=1.4.0

你可以使用以下命令进行安装：

pip install numpy numba torch transformers mamba_ssm causal_conv1d

💻 使用示例

基础用法

import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-2-8b", trust_remote_code=True)
print(pipeline("The future of artificial intelligence technology is ", max_new_tokens=32))

高级用法

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-2-8b", trust_remote_code=True)
text = "これからの人工知能技術は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
    inputs=input_ids,
    max_new_tokens=32,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)

📚 详细文档

模型描述

PLaMo 2 8B是一款在英文和日文数据集上预训练的80亿参数模型，由Preferred Elements公司开发。该模型采用了类似Samba的混合架构，结合了Mamba和滑动窗口注意力的优势，提高了效率和性能。

商业用户说明

商业用户在使用PLaMo 2 8B模型前，请仔细阅读PLaMo社区许可证，并通过以下表单与我们联系：

(英文/日文) https://forms.gle/mTL8tBLrMYXKNZD56

注意事项

本模型未针对聊天对话或其他下游任务进行指令微调。

🔧 技术细节

架构

PLaMo 2模型采用了类似Samba的混合架构，该架构将选择性状态空间模型（SSM）Mamba与滑动窗口注意力相结合。与传统的Transformer架构相比，Samba架构在效率和性能上有显著提升。PLaMo 2在Samba的基础上进行了改进，增加了归一化层以提高训练稳定性，并使用Mamba2内核提高计算效率。

训练数据

PLaMo 2 8B模型的训练分为两个阶段，第一阶段使用了5250亿个token，第二阶段使用了750亿个token。各阶段数据集的占比情况如下表所示：

语言	5250亿token（第一阶段）	750亿token（第二阶段）	token数量
英文	45%	35%	2625亿
日文	30%	40%	1875亿
代码	15%	15%	900亿
其他	10%	10%	600亿

分词器

PLaMo 2 8B的分词器使用了numba进行优化，numba是一个用于数值函数的即时编译器。该分词器在模型预训练数据集的一个子集上进行了训练。

📄 许可证

PLaMo 2 8B模型采用PLaMo社区许可证发布。在下载模型之前，请仔细阅读以下许可证并同意相关条款：

(英文) 正在建设中，对此带来的不便我们深表歉意
(日文) https://www.preferred.jp/ja/plamo-community-license/

PLaMo社区许可证详情

第1条（定义）

(1) 「本契约」指PLaMo社区许可证契约。 (2) 「PFN」指Preferred Networks公司。 (3) 「本模型」指名为「PLaMo」的模型权重、模型代码、分词器、学习脚本及PFN随附提供的相关内容。 (4) 「用户」指使用本模型的个人或法人。 (5) 「派生模型」指对本模型进行修改或利用后创建的模型权重、模型代码及其他附属物。 (6) 「生成物」指本模型或派生模型的输出结果。 (7) 「本模型等」指本模型、派生模型及生成物的统称。 (8) 「本许可证」指PFN根据本契约允许用户使用本模型等的许可。 (9) 「商业目的」指超出个人使用或学术用途范围，用于商业运营或盈利的使用。包括用户产品、服务或业务的开发、变更或提供（包括托管服务和通过API提供）以及用户组织内部的使用。

第2条（用户）

用户必须年满18岁或达到其居住国可单独签订契约的年龄。但如果用户的监护人或法定代理人同意用户签订本契约，则不受此限制。

第3条（本许可证）

(1) PFN在用户同意并遵守本契约的条件下，允许用户在本契约规定的条件和范围内使用本模型等。 (2) 本许可证为非独占、全球性、不可转让且免版税的许可证。 (3) 用户仅在满足以下所有条件时，才可将本模型等用于商业目的。若用户不再满足其中任何一个条件，则必须立即停止将本模型等用于商业目的；若想继续用于商业目的，需重新从PFN获取商业许可证。 (i) 提前在PFN的官方注册页面https://forms.gle/mTL8tBLrMYXKNZD56进行注册。 (ii) 用户或其关联公司最近一个财年的收入或销售额不超过10亿日元（按用户当地货币换算）。

第4条（再分发及显示义务）

(1) 用户向第三方提供本模型等（包括派生模型及其生成物）时，必须满足以下条件： (i) 提供本契约的副本，并要求第三方遵守本契约的条件。 (ii) 明确标注「Built with PLaMo」，并在相关网站、用户界面、博客文章、产品信息页面或产品文档中进行说明。 (iii) 在使用本模型等创建的AI模型名称中包含「PLaMo」。

第5条（生成物的使用）

(1) 用户在明确说明生成物是本模型或派生模型的产物的条件下，可以公开该生成物。 (2) 使用生成物训练模型时，该模型将作为派生模型适用本契约的条件，仅可在本契约的许可条件下使用、分发和商业化。

第6条（其他使用条件）

用户在使用本模型等时，不得进行以下行为： (1) 违反法律法规或公序良俗的行为。 (2) 犯罪行为或预告、参与、助长犯罪行为及其他相关行为。 (3) 侵犯PFN或第三方权利或利益的行为。 (4) 损害PFN或第三方名誉或信誉的行为。 (5) 传播可能导致误解生成物为PFN官方意见等的信息的行为。 (6) 发布虚假信息的行为。 (7) 其他PFN合理认为不适当的行为。

第7条（保证的否认）

(1) 本模型和生成物按「现状」提供，PFN对其准确性、真实性、适销性、质量、性能、特定用途的适用性、权利的非侵权性等不提供任何保证。 (2) 用户不得将生成物作为法律、医疗、金融或人物评估等重要事项决策的唯一证据、评估或意见。 (3) 用户对本模型等的使用及其结果承担全部责任。

第8条（责任的限制）

(1) 无论责任类型是契约责任、侵权行为、产品责任还是其他法律责任，PFN对用户因本契约和本模型等产生的损害赔偿责任仅限于通常和直接的损害（无论是否可预见，对间接损失、特别损失、间接损害等不承担责任），损害赔偿金额上限为500日元。但如果PFN存在故意或重大过失，则不受此限制。 (2) 尽管有前款规定，若用户将本模型等用于商业目的，PFN对用户因本契约和本模型等产生的任何损害赔偿责任和其他责任概不负责。

第9条（用户的责任）

(1) 用户在获取和使用本模型等时，必须遵守适用的法律法规（包括与进出口和贸易相关的法律法规）和本契约。 (2) 若用户因违反本契约或使用本模型等给PFN造成损害，应承担赔偿责任。 (3) 若因用户使用本模型等导致PFN受到第三方的损害赔偿请求或其他请求，用户应使PFN免责，并避免给PFN造成损害。

第10条（权利的归属）

(1) 本模型的所有权利归PFN或向PFN授予本模型许可证的第三方所有。 (2) 派生模型中，用户对本模型进行修改部分的权利归用户所有，其他部分的权利归PFN所有。 (3) 生成物的所有权利归用户所有。

第11条（契约期间及终止）

(1) 本契约自用户同意本契约或访问本模型时起生效，至本契约解除时终止。 (2) 若用户违反本契约的任何条款，PFN有权立即解除本契约，用户必须删除本模型等的所有副本，并立即停止使用。

第12条（契约的变更）

PFN有权变更本契约（包括与本模型等相关的规则和规定）。PFN变更本契约时，将在变更生效前以PFN规定的方式通知用户变更内容和生效时间。

第13条（准据法及管辖法院）

(1) 本契约适用日本法律。 (2) 因本模型等和本契约产生的纠纷，由东京地方裁判所作为专属合意管辖法院。

⚠️ 重要提示

PLaMo 2 8B是一项新技术，使用时存在一定风险。目前的测试仅在英文和日文环境下进行，且无法涵盖所有场景。因此，与所有大语言模型一样，PLaMo 2 8B的潜在输出无法提前预测，模型在某些情况下可能会产生不准确、有偏见或其他令人反感的回复。在部署PLaMo 2 8B的任何应用之前，开发者应针对具体应用场景进行安全测试和调优。