llm-jp-13b-v2.0开源大语言模型 - 免费部署支持日英双语文本生成

首页

Llm Jp 13b V2.0

由 llm-jp 开发

由日本合作项目LLM-jp开发的大规模语言模型，支持日语和英语，主要用于文本生成任务。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #日语大模型 #多语言文本生成 #指令微调优化

下载量 570

发布时间 : 4/23/2024

模型简介

这是一个基于Transformer架构的大规模语言模型，经过预训练和指令微调，能够处理日语和英语的文本生成任务。

模型特点

多语言支持

特别优化了对日语和英语的处理能力

大规模预训练

在2560亿token的混合数据集上进行预训练

多样化指令微调

使用多种指令数据集进行微调，提高模型响应质量

高效分词器

采用Unigram字节回退模型的Hugging Face快速分词器，特别优化日语处理

模型能力

日语文本生成

英语文本生成

代码生成

指令响应

使用案例

内容创作

日语文章生成

生成符合日语表达习惯的文章

问答系统

日语问答

回答日语用户的问题

代码辅助

代码生成

根据描述生成代码片段

🚀 llm-jp-13b-v2.0

本仓库提供了由日本发起的合作项目 LLM-jp 开发的大语言模型。这些模型能够处理多种语言的文本生成任务，为自然语言处理领域的研究和应用提供了强大的支持。

🚀 快速开始

本项目提供了预训练模型和指令微调模型，你可以根据需求选择合适的模型进行使用。以下是使用示例：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v2.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v2.0", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

✨ 主要特性

多语言支持：支持多种编程语言，包括 C、C++、C#、Go、Java、JavaScript、Lua、PHP、Python、Ruby、Rust、Scala 和 TypeScript。
多种模型变体：提供指令模型和预训练模型，满足不同的应用场景。
丰富的训练数据：使用多种数据集进行预训练和指令微调，提高模型的性能和泛化能力。

📦 安装指南

使用本项目的模型需要安装以下库及其指定版本：

torch>=2.3.0
transformers>=4.40.1
tokenizers>=0.19.1
accelerate>=0.29.3
flash-attn>=2.5.8

你可以使用以下命令进行安装：

pip install torch>=2.3.0 transformers>=4.40.1 tokenizers>=0.19.1 accelerate>=0.29.3 flash-attn>=2.5.8

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-v2.0")
model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-v2.0", device_map="auto", torch_dtype=torch.bfloat16)
text = "自然言語処理とは何か"
tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
with torch.no_grad():
    output = model.generate(
        tokenized_input,
        max_new_tokens=100,
        do_sample=True,
        top_p=0.95,
        temperature=0.7,
        repetition_penalty=1.05,
    )[0]
print(tokenizer.decode(output))

📚 详细文档

模型详情

属性	详情
模型类型	基于Transformer的语言模型
总可见令牌数	256B

模型	参数	层数	隐藏层大小	头数	上下文长度
13b模型	13b	40	5120	40	4096

训练信息

预训练

硬件：128块 A100 40GB GPU (mdx cluster)
软件：Megatron-LM

指令微调

硬件：8块 A100 40GB GPU (mdx cluster)
软件：TRL 和 DeepSpeed

分词器

本模型的分词器基于 huggingface/tokenizers 的 Unigram byte-fallback 模型。词汇表条目从 llm-jp-tokenizer v2.2 (100k: code20K_en40K_ja60K.ver2.2) 转换而来。有关词汇表构建过程的详细信息，请参考 llm-ja-tokenizer 的 README.md（纯 SentencePiece 训练无法重现我们的词汇表）。

模型：使用 Unigram byte-fallback 模型的 Hugging Face 快速分词器
训练算法：合并使用 SentencePiece Unigram byte-fallback 构建的代码/英语/日语词汇表，并使用 EM 算法重新估计分数。
训练数据：模型预训练数据集的一个子集
词汇表大小：96,867（日语、英语和源代码的混合词汇表）
- 由于向上取整为 256 的倍数，预训练模型中词汇表的实际大小为 97,024。

数据集

预训练

模型使用以下数据集的混合进行预训练：

语言	数据集	令牌数
日语	Wikipedia	1.4B
	Common Crawl	130.7B
英语	Wikipedia	4.7B
	The Pile	110.3B
代码	The Stack	8.7B

指令微调

模型在以下数据集上进行了微调：

语言	数据集	描述
日语	ichikara-instruction-004-001	手动构建的日语指令数据集
	answer-carefully-001	专注于大语言模型安全性的手动构建日语指令数据集
	databricks-dolly-15k-ja	databricks-dolly-15k 使用 DeepL 翻译成日语的版本
	oasst1-21k-ja	oasst1 使用 DeepL 翻译成日语的一个子集
	oasst2-33k-ja	oasst2 使用 DeepL 翻译成日语的一个子集
英语	databricks-dolly-15k	-
	oasst1-21k-en	oasst1 的一个子集
	oasst2-33k-en	oasst2 的一个子集