llm - jp - 13b - instruct开源语言模型 - 免费支持日语和英语文本生成任务

首页

Llm Jp 13b Instruct Full Jaster Dolly Oasst V1.0

由 llm-jp 开发

由日本LLM-jp项目开发的大规模语言模型，支持日语和英语的文本生成任务

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #日语指令微调 #多任务对话 #13B参数量

下载量 750

发布时间 : 10/18/2023

模型简介

这是一个基于Transformer架构的大规模语言模型，经过指令微调，专注于日语和英语的文本生成任务。模型由日本LLM-jp项目开发，基于3000亿token的预训练数据，并在多个指令数据集上进行了微调。

模型特点

多语言支持

专门针对日语和英语优化，在两种语言上都有良好表现

大规模预训练

基于3000亿token的多样化数据集进行预训练

指令微调

在多个高质量指令数据集上进行微调，提高指令遵循能力

高效推理

支持半精度浮点运算(torch.float16)，提高推理效率

模型能力

日语文本生成

英语文本生成

指令遵循

问答系统

使用案例

教育

语言学习辅助

帮助学生理解和生成日语和英语文本

客户服务

自动问答系统

构建日语和英语的客户服务聊天机器人

内容创作

多语言内容生成

辅助创作者生成日语和英语的文本内容

🚀 llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0

本仓库提供了由日本发起的合作项目 LLM-jp 开发的大语言模型。这些模型在自然语言处理领域具有重要价值，能为相关研究和应用提供强大的支持。

🚀 快速开始

在使用本模型之前，你需要安装所需的库及其指定版本。

所需库及其版本

torch>=2.0.0
transformers>=4.34.0
tokenizers>=0.14.0
accelerate==0.23.0

✨ 主要特性

本项目提供了多种模型变体，涵盖指令模型和预训练模型，以满足不同的应用需求。同时，模型采用了先进的 Transformer 架构，在自然语言处理任务中具有出色的表现。

模型变体

指令模型

模型链接
llm-jp-13b-instruct-full-jaster-v1.0
llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-full-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-jaster-v1.0
llm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0
llm-jp-13b-instruct-lora-dolly-oasst-v1.0

预训练模型

模型链接
llm-jp-13b-v1.0
llm-jp-1.3b-v1.0

检查点格式：Hugging Face Transformers（Megatron-DeepSpeed 格式的模型可在此处获取）

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0", device_map="auto", torch_dtype=torch.float16)
text = "自然言語処理とは何か"
text = text + "### 回答："
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
    )[0]
print(tokenizer.decode(output))

📚 详细文档

模型详情

属性	详情
模型类型	基于 Transformer 的语言模型
总所见令牌数	300B

模型	参数	层数	隐藏层大小	头数	上下文长度
13b 模型	13b	40	5120	40	2048
1.3b 模型	1.3b	24	2048	16	2048

训练信息

预训练

硬件：96 块 A100 40GB GPU（mdx 集群）
软件：Megatron-DeepSpeed

指令微调

硬件：8 块 A100 40GB GPU（mdx 集群）
软件：TRL、PEFT 和 DeepSpeed

分词器

本模型的分词器基于 huggingface/tokenizers 的 Unigram byte-fallback 模型。词汇表条目由 llm-jp-tokenizer v2.1 (50k) 转换而来。有关词汇表构建过程的详细信息，请参考 llm-ja-tokenizer 的 README.md。

模型：使用 Unigram byte-fallback 模型的 Hugging Face Fast Tokenizer，需要 tokenizers>=0.14.0
训练算法：SentencePiece Unigram byte-fallback
训练数据：模型预训练数据集的一个子集
词汇表大小：50,570（日语、英语和源代码的混合词汇表）

数据集

预训练

模型使用以下数据集的混合进行预训练：

语言	数据集	令牌数
日语	Wikipedia	1.5B
	mC4	136B
英语	Wikipedia	5B
	The Pile	135B
代码	The Stack	10B

预训练使用总共 10 折不重叠的数据连续进行，每一折大约包含 27 - 28B 令牌。我们使用从上述相同源数据集获得的额外（可能）高质量 27B 令牌数据完成了预训练。

指令微调

模型在以下数据集上进行了微调：

语言	数据集	描述
日语	jaster	从现有日语 NLP 数据集自动转换而来的数据
	databricks-dolly-15k	LLM-jp 中使用 DeepL 翻译的数据
	OpenAssistant Conversations Dataset	LLM-jp 中使用 DeepL 翻译的数据