Plamo-100b开源千亿参数模型 - 支持英日双语，商用与非商用双许可

首页

Plamo 100b

由 pfnet 开发

由Preferred Elements公司基于英日双语开源数据集训练的千亿参数模型，提供商业与非商业双重许可

大型语言模型

Transformers

支持多种语言开源协议:其他 #千亿参数大模型 #英日双语优化 #学术研究专用

下载量 178

发布时间 : 9/24/2024

模型简介

PLaMo-100B是一个专注于日语能力优化的原生大语言模型，支持英语和日语文本生成任务

模型特点

双语支持

专门针对英语和日语优化，训练数据包含1.3T英文token和0.7T日文token

两阶段训练

分两个阶段进行训练，第一阶段1.5T token，第二阶段0.5T token，采用不同的数据比例

商业许可选项

提供商业和非商业双重许可模式，满足不同使用场景需求

模型能力

文本生成

日语文本处理

英语文本处理

使用案例

学术研究

语言模型研究

可用于大语言模型相关学术研究

内容创作

日语内容生成

生成日语文本内容

🚀 PLaMo-100B

PLaMo-100B是由Preferred Elements公司开发的一款预训练模型，在英文和日文开放数据集上进行训练，拥有1000亿参数。该模型提供商业和非商业两种许可，适用于多种文本生成任务。

🚀 快速开始

环境依赖

运行PLaMo-100B模型需要安装以下库：

numpy
sentencepiece
torch
transformers

使用示例

基础用法

使用transformers库的pipeline函数进行文本生成：

import transformers
pipeline = transformers.pipeline("text-generation", model="pfnet/plamo-100b", trust_remote_code=True)
print(pipeline("The future of artificial intelligence technology is ", max_new_tokens=32))

高级用法

直接加载模型进行文本生成：

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-100b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("pfnet/plamo-100b", trust_remote_code=True)
text = "これからの人工知能技術は"
input_ids = tokenizer(text, return_tensors="pt").input_ids
generated_tokens = model.generate(
    inputs=input_ids,
    max_new_tokens=32,
    do_sample=True,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
)[0]
generated_text = tokenizer.decode(generated_tokens)
print(generated_text)

✨ 主要特性

多语言支持：支持英文和日文两种语言。
双许可模式：提供商业和非商业两种许可。
灵活使用：可通过pipeline快速调用，也可直接加载模型进行定制化开发。

📦 安装指南

确保你已经安装了所需的依赖库，可以使用以下命令进行安装：

pip install numpy sentencepiece torch transformers

📚 详细文档

模型详情

属性	详情
模型类型	因果解码器模型
训练数据	共2万亿个标记（英文：1.3万亿个标记，日文：0.7万亿个标记）
模型大小	1000亿参数
开发者	Preferred Elements公司
支持语言	英文、日文
许可证	商业和非商业许可

训练数据集

PLaMo-100B的训练分为两个阶段，第一阶段使用1.5万亿个标记，第二阶段使用0.5万亿个标记。各阶段数据集的占比情况如下表所示：

	1.5T（第一阶段）	0.5T（第二阶段）
RefinedWeb（英文）	42%	17%
其他英文数据集	28%	33%
专有CommonCrawl-JP	18%	46%
其他日文数据集	12%	4%

分词器

PLaMo-100B使用sentencepiece分词器，该分词器在模型预训练数据集的一个子集上进行训练。

技术博客

你可以访问技术博客了解更多关于PLaMo-100B的技术细节。

偏差、风险和局限性

PLaMo-100B作为一项新技术，在使用过程中存在一定风险。目前的测试仅在英文和日文环境下进行，无法覆盖所有场景。因此，与所有大语言模型一样，PLaMo-100B的输出结果无法提前预测，在某些情况下可能会产生不准确、有偏差或其他令人反感的回复。在部署PLaMo-100B的任何应用之前，开发者应针对具体应用场景进行安全测试和调优。

引用方式

如果你使用了PLaMo-100B模型，请按照以下格式进行引用：

@article{plamo100b,
    author    = {Preferred Elements, Inc. and Kenshin Abe and Kaizaburo Chubachi and Yasuhiro Fujita and Yuta Hirokawa and Kentaro Imajo and Toshiki Kataoka and Hiroyoshi Komatsu and Hiroaki Mikami and Tsuguo Mogami and Shogo Murai and Kosuke Nakago and Daisuke Nishino and Toru Ogawa and Daisuke Okanohara and Yoshihiko Ozaki and Shotaro Sano and Shuji Suzuki and Tianqi Xu and Toshihiko Yanase},
    title     = {PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency},
    year      = {2024},
    url       = {https://arxiv.org/abs/2410.07563},
    journal   = {arXiv}
}

致谢

该模型是在新能源产业技术综合开发机构（NEDO）资助的“后5G信息通信系统增强基础设施研发项目”（JPNP 20017）下进行训练的。

📄 许可证

PLaMo-100B采用商业和非商业两种许可模式。对于非商业用途，请查看许可证，提供日文和英文两个版本。对于商业用途，请通过此表单（仅日文）联系我们。

PLaMo非商业许可协议

PLaMo非商业许可协议规定了用户在非商业用途下使用Preferred Networks公司提供的基础大语言模型PLaMo - 100B必须遵守的许可条款和条件。用户同意本协议或使用该模型即表示同意受本协议所有条款和条件的法律约束。

第一条：定义

“协议”指本PLaMo非商业许可协议。
“PFN”指Preferred Networks公司。
“模型”指名为“PLaMo - 100B”的模型代码，包括其训练脚本、分词器、预训练权重以及PFN提供的任何相关组件或资源。
“用户”指使用该模型的个人或法人实体。
“许可”指PFN根据本协议条款授予用户使用该模型的权限。
“衍生模型”指通过对模型进行修改（如微调、量化瘦身、代码编辑和参数调整）而创建的任何模型代码。衍生模型包括微调权重以及所创建模型的其他相关组件和资源。
“输出结果”指模型或衍生模型生成的结果。
“模型和输出结果”统称模型、衍生模型和输出结果。

第二条：用户

用户必须年满18岁，或在其居住国具有独立签订协议的法定年龄。但是，如果用户的父母或法定代理人同意用户签订本协议，则此要求不适用。

第三条：许可

若用户同意并遵守本协议的所有条款和条件，PFN将根据本协议的条款和条件授予用户使用该模型的权限。
所提供的许可为非独家、全球范围、可撤销、不可再许可、不可转让且免版税的许可。
用户只能将模型和输出结果用于个人或学术应用。
禁止用户将模型和输出结果用于以下任何目的或任何其他商业目的：
- 用户或第三方的任何业务。
- 开发或研究用于商业应用的模型或服务。
用户不得向任何第三方提供模型或任何衍生模型，也不得允许第三方使用它们，无论使用目的是商业还是非商业。

第四条：衍生模型

用户可以通过微调、量化瘦身、代码编辑和参数修改等方法从模型创建衍生模型。但是，严禁为前条第4款所述目的或任何其他商业目的创建衍生模型。
创建任何衍生模型后，用户必须在这些衍生模型的名称中包含并清晰显示“PLaMo”前缀。

第五条：输出结果

用户可以公开输出结果，但必须明确说明它们是由模型或衍生模型生成的。
严禁用户将输出结果用于开发、训练或增强任何非模型或衍生模型的其他大语言模型。

第六条：其他使用限制

在使用模型、衍生模型或输出结果（统称“模型和输出结果”）时，严禁用户实施以下任何行为：

违反任何法律法规或扰乱公共秩序和社会规范。
侵犯PFN或任何第三方的权利或利益。
损害PFN或任何第三方的声誉或信誉。
给PFN或任何第三方造成经济损失。
进行恐吓、种族歧视或诽谤性言论。
输入日本法律定义的个人信息，特别是《个人信息保护法》（2003年第57号法案）第2条第1款定义的个人信息或该法规同样定义的敏感个人信息。
跟踪、骚扰、挑衅或曝光其他用户的个人信息。
开发、支持或使用计算机病毒、恶意软件、自动化软件或机器人程序或有害程序。
进行任何可能煽动或鼓励自杀、自残、暴力和吸毒等有害行为的交流、行动或表达。
传播虚假信息。
传播暗示输出结果是PFN官方观点和意见的信息。
在金融、教育、就业、住房、保险、法律、医疗或任何其他可能对个人或商业实体产生法律或重大影响的领域使用模型和输出结果。
将模型和输出结果作为唯一信息来源或专家建议的替代品。
将模型和输出结果用于车辆导航或自动驾驶系统。
从事、威胁实施、参与或协助任何犯罪活动或与之相关的任何活动。
进行洗钱或类似的金融不当行为。
直接或间接地为反社会势力提供利益。
传播淫秽内容或不利于青少年健康发展的材料。
将模型和输出结果用于政治活动或类似性质的活动。
通过PFN提供的接口以外的方法获取模型。
此外，任何根据PFN的判断被认为不合理的不当行为。

第七条：免责声明

模型和输出结果按“现状”提供。PFN对其不做任何形式的保证或担保，包括但不限于其准确性、真实性、适销性、质量、性能、特定用途适用性或不侵犯任何权利。用户有责任自行判断使用模型和输出结果的适当性，并对使用模型和输出结果所产生的所有后果承担全部责任。

第八条：责任限制

对于用户因本协议以及模型和输出结果而遭受的任何损害，无论该损害是因合同、侵权、产品责任或任何其他法律索赔引起的，PFN的责任仅限于直接和一般损害（PFN不对任何利润损失、特殊、间接或任何其他损害负责，无论这些损害是否可预见），且损害的最大赔偿责任为500日元。但是，如果确定PFN存在故意或重大过失，则本条款不适用。
无论前款规定如何，如果用户将模型和输出结果用于商业目的，PFN对用户因本协议以及模型和输出结果而遭受的任何损害或其他责任不承担任何责任。