open-calm-large开源日语语言模型 - 基于日语数据训练，免费畅用

首页

Open Calm Large

由 cyberagent 开发

OpenCALM是由CyberAgent公司开发的一套基于日语数据集预训练的仅解码器语言模型系列。

大型语言模型

Transformers

日语#日语生成 #大语言模型 #Transformer架构

下载量 1,059

发布时间 : 5/15/2023

模型简介

OpenCALM是一个基于Transformer的日语语言模型系列，支持文本生成等任务。

模型特点

日语优化

专门针对日语文本进行预训练，在日语任务上表现优异

多规模选择

提供从1.6亿到68亿参数的不同规模模型选择

开源许可

采用CC BY-SA 4.0许可，允许商业和研究使用

模型能力

日语文本生成

语言理解

文本续写

使用案例

内容创作

文章续写

根据开头自动生成连贯的文章内容

生成流畅自然的日语文本

对话系统

日语聊天机器人

构建日语对话系统

生成符合语境的日语回复

🚀 OpenCALM-Large

OpenCALM是一套仅含解码器的语言模型，由CyberAgent公司基于日语数据集进行预训练。它能够助力自然语言处理相关任务，为日语语言处理提供强大的支持。

🚀 快速开始

安装依赖

确保你已经安装了torch和transformers库，可以使用以下命令进行安装：

pip install torch transformers

代码示例

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("cyberagent/open-calm-large", device_map="auto", torch_dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained("cyberagent/open-calm-large")

inputs = tokenizer("AIによって私達の暮らしは、", return_tensors="pt").to(model.device)
with torch.no_grad():
    tokens = model.generate(
        **inputs,
        max_new_tokens=64,
        do_sample=True,
        temperature=0.7,
        top_p=0.9,
        repetition_penalty=1.05,
        pad_token_id=tokenizer.pad_token_id,
    )
    
output = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(output)

✨ 主要特性

专为日语设计：OpenCALM系列模型是在日语数据集上进行预训练的，能够更好地处理日语相关的自然语言处理任务。
多规模选择：提供了从open-calm-small到open-calm-7b等多种不同规模的模型，可根据具体需求进行选择。

📚 详细文档

模型详情

模型	参数数量	层数	维度	头数	开发集困惑度
cyberagent/open-calm-small	1.6亿	12	768	12	19.7
cyberagent/open-calm-medium	4亿	24	1024	16	13.8
cyberagent/open-calm-large	8.3亿	24	1536	16	11.3
cyberagent/open-calm-1b	14亿	24	2048	16	10.3
cyberagent/open-calm-3b	27亿	32	2560	32	9.7
cyberagent/open-calm-7b	68亿	32	4096	32	8.2

模型信息

属性	详情
开发者	CyberAgent, Inc.
模型类型	基于Transformer的语言模型
语言	日语
库	GPT-NeoX
许可证	OpenCALM采用知识共享署名 - 相同方式共享4.0国际许可协议（CC BY - SA 4.0）。使用此模型时，请向CyberAgent, Inc.提供适当的引用。示例（英文）：This model is a fine - tuned version of OpenCALM - XX developed by CyberAgent, Inc. The original model is released under the CC BY - SA 4.0 license, and this model is also released under the same CC BY - SA 4.0 license. For more information, please visit: https://creativecommons.org/licenses/by - sa/4.0/ 示例（日文）：本モデルは、株式会社サイバーエージェントによるOpenCALM - XXをファインチューニングしたものです。元のモデルはCC BY - SA 4.0ライセンスのもとで公開されており、本モデルも同じくCC BY - SA 4.0ライセンスで公開します。詳しくはこちらをご覧ください: https://creativecommons.org/licenses/by - sa/4.0/

训练数据集

Wikipedia（日语）
Common Crawl（日语）

📄 许可证

本模型采用知识共享署名 - 相同方式共享4.0国际许可协议（CC BY - SA 4.0）。

👨‍💻 作者

Ryosuke Ishigami

📚 引用

@software{gpt-neox-library,
  title = {{GPT-NeoX: Large Scale Autoregressive Language Modeling in PyTorch}},
  author = {Andonian, Alex and Anthony, Quentin and Biderman, Stella and Black, Sid and Gali, Preetham and Gao, Leo and Hallahan, Eric and Levy-Kramer, Josh and Leahy, Connor and Nestler, Lucas and Parker, Kip and Pieler, Michael and Purohit, Shivanshu and Songz, Tri and Phil, Wang and Weinbach, Samuel},
  url = {https://www.github.com/eleutherai/gpt-neox},
  doi = {10.5281/zenodo.5879544},
  month = {8},
  year = {2021},
  version = {0.0.1},
}