llm-jp-13b-v1.0开源大语言模型 - 免费支持日语和英语文本生成

首页

Llm Jp 13b V1.0

由 llm-jp 开发

由日本合作项目LLM-jp开发的大语言模型，支持日语和英语文本生成

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #日语大语言模型 #多指令微调变体 #3000亿token预训练

下载量 784

发布时间 : 10/18/2023

模型简介

这是一个基于Transformer架构的大语言模型，专门针对日语和英语进行了优化，可用于文本生成任务。

模型特点

日语优化

专门针对日语进行了优化训练，包含大量日语训练数据

多语言支持

同时支持日语和英语的文本生成

大规模预训练

在3000亿token的多语言数据集上进行预训练

多样化微调

提供多个经过不同数据集微调的模型变体

模型能力

日语文本生成

英语文本生成

代码理解与生成

使用案例

自然语言处理

日语问答系统

构建针对日语用户的智能问答系统

多语言内容生成

生成日语和英语的文本内容

教育

语言学习助手

辅助日语和英语学习者进行语言练习

🚀 llm-jp-13b-v1.0

本仓库提供由日本发起的合作项目 LLM-jp 开发的大语言模型。这些模型在自然语言处理领域具有广泛的应用前景，能够为用户提供高效、准确的文本生成服务。

🚀 快速开始

本项目提供了一系列基于Transformer架构的大语言模型，涵盖预训练模型和指令微调模型。以下是使用这些模型的快速入门指南。

✨ 主要特性

多种模型变体：提供预训练模型和指令微调模型，满足不同应用场景需求。
多语言支持：支持日语、英语等多种语言，适用于跨语言任务。
高效训练：采用先进的训练技术和硬件资源，确保模型性能。

📦 安装指南

使用本项目的模型前，请确保安装以下必需的库及其对应版本：

torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0

你可以使用以下命令进行安装：

pip install torch transformers tokenizers accelerate

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

📚 详细文档

模型详情

属性	详情
模型类型	基于Transformer的语言模型
总可见令牌数	300B

模型	参数	层数	隐藏层大小	头数	上下文长度
13b模型	13b	40	5120	40	2048
1.3b模型	1.3b	24	2048	16	2048

训练详情

预训练：
- 硬件：96块A100 40GB GPU (mdx集群)
- 软件：Megatron-DeepSpeed
指令微调：
- 硬件：8块A100 40GB GPU (mdx集群)
- 软件：TRL、PEFT 和 DeepSpeed

分词器详情

本模型的分词器基于 huggingface/tokenizers 的Unigram字节回退模型。词汇表条目从 llm-jp-tokenizer v2.1 (50k) 转换而来。有关词汇表构建过程的详细信息，请参考 llm-ja-tokenizer 的 README.md。

模型：使用Unigram字节回退模型的Hugging Face快速分词器，需要 tokenizers>=0.14.0
训练算法：SentencePiece Unigram字节回退
训练数据：模型预训练数据集的一个子集
词汇表大小：50,570（日语、英语和源代码的混合词汇表）

数据集详情

预训练

模型使用以下数据集的混合进行预训练：

语言	数据集	令牌数
日语	Wikipedia	1.5B
	mC4	136B
英语	Wikipedia	5B
	The Pile	135B
代码	The Stack	10B

预训练使用总共10折不重叠的数据连续进行，每一折约包含27 - 28B个令牌。我们使用从上述相同源数据集获得的额外（可能）高质量的27B令牌数据完成了预训练。

指令微调

模型在以下数据集上进行微调：

语言	数据集	描述
日语	jaster	从现有日语NLP数据集自动转换而来的数据
	databricks-dolly-15k	LLM-jp使用DeepL翻译的数据
	OpenAssistant Conversations Dataset	LLM-jp使用DeepL翻译的数据