Tanuki-8B-dpo-v1.0开源日语大语言模型 - 经优化适用于对话任务

首页

Tanuki 8B Dpo V1.0

由 weblab-GENIAC 开发

Tanuki-8B是一个8B参数的日语大语言模型，经过SFT和DPO优化对话任务，由GENIAC松尾研究室开发

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #日语对话优化 #8B参数规模 #DPO微调

下载量 1,143

发布时间 : 8/12/2024

模型简介

从头预训练的日语大语言模型，针对对话任务进行优化，支持多轮对话和复杂指令理解

模型特点

日语优化

专门针对日语理解和生成进行优化，采用日语版Alpaca提示格式

对话优化

通过SFT和DPO训练针对对话任务进行专门优化

多轮对话支持

支持复杂的多轮对话场景，保持上下文一致性

模型能力

日语文本生成

多轮对话处理

复杂指令理解

角色扮演对话

使用案例

智能助手

日语对话机器人

构建能进行自然日语对话的智能助手

在人工评估中表现良好

教育

日语学习辅助

帮助日语学习者练习对话和理解复杂概念

🚀 狸猫-8B-dpo-v1.0

狸猫-8B-dpo-v1.0是一款大规模语言模型，在多方面表现出色。它基于约80亿参数，经过约1.3T令牌的从头预训练，并通过SFT和DPO进行对话调整。本项目由GENIAC松尾研LLM开发项目组织，众多有志参与者共同开发。

🚀 快速开始

狸猫-8B是一个约80亿参数的大规模语言模型，经过约1.3T令牌的从头预训练。狸猫-8x8B-dpo-v1.0则通过SFT和DPO进行了对话调整。更多详细信息请参考博客文章。

本项目由GENIAC松尾研LLM开发项目组织，由通过公开招募聚集的有志参与者（包括企业人员、学生、研究人员等）共同开发。

✨ 主要特性

预训练充分：约80亿参数的模型经过约1.3T令牌的从头预训练。
对话优化：通过SFT和DPO进行对话调整。
多版本支持：提供多种量子化版本。
基准测试：有人工评估和Japanese MT - Bench等测试数据。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

model = AutoModelForCausalLM.from_pretrained("weblab-GENIAC/Tanuki-8B-dpo-v1.0", device_map="auto", torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained("weblab-GENIAC/Tanuki-8B-dpo-v1.0")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

messages = [
    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
    {"role": "user", "content": "たぬきに純粋理性批判は理解できますか？"}
]

input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids,
                            max_new_tokens=1024,
                            temperature=0.5,
                            streamer=streamer)

📚 详细文档

量子化模型

⚠️ 重要提示

GGUF版可能存在性能下降问题，不建议使用。

提示格式

狸猫-8B-dpo-v1.0使用日语版Alpaca的提示格式。

单轮对话

<s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。

### 指示:
たぬきに純粋理性批判は理解できますか？

### 応答:

多轮对话

<s>以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。

### 指示:
{1ターン目の入力}

### 応答:
{1ターン目の応答}</s>

### 指示:
{2ターン目の入力}

### 応答:

💡 使用建议

本模型除了默认的系统提示“以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。”外没有学习其他提示，建议使用此系统提示。请在用户提示中描述任务的详细信息。

基准测试

人工评估

创建了一个模拟Chatbot Arena的系统，并进行了人工盲测。（详情请参考此处）

已公开所有评估数据（约2000条）。 image/png

Japanese MT - Bench

由GPT - 4进行评估 (gpt - 4 - 0613，在计算平均分数时排除分数为 - 1的情况)

属性	详情
平均分数	狸猫-8B-dpo-v1.0为7.24，狸猫-8x8B-dpo-v1.0为7.96
编码	狸猫-8B-dpo-v1.0为5.4，狸猫-8x8B-dpo-v1.0为6.75
提取	狸猫-8B-dpo-v1.0为6.65，狸猫-8x8B-dpo-v1.0为6.90
人文	狸猫-8B-dpo-v1.0为9.1，狸猫-8x8B-dpo-v1.0为9.3
数学	狸猫-8B-dpo-v1.0为3.9，狸猫-8x8B-dpo-v1.0为5.75
推理	狸猫-8B-dpo-v1.0为5.75，狸猫-8x8B-dpo-v1.0为7.35
角色扮演	狸猫-8B-dpo-v1.0为8.75，狸猫-8x8B-dpo-v1.0为8.95
科学技术	狸猫-8B-dpo-v1.0为9.35，狸猫-8x8B-dpo-v1.0为9.40
写作	狸猫-8B-dpo-v1.0为9.05，狸猫-8x8B-dpo-v1.0为8.85

开发成员

畠山歓 [领导者]、asaoka_tadashi、Atsushi Saito、Chattso - GPT、Chihiro Arata、Chihiro HIGUCHI、Daichi Kohmoto、Esty、Hideaki Hayashi、hiroaki shioya、Issei Fujimoto、Jie Zeng、Jinsei Shiraishi、K. Nishizawa、Kazutaka Nishimae、Kunihiro Watanabe、masaki okamura、Minami Someya、M先生、Nishi、Nishijima、p1atdev、Rumi Nakagawa、Ryota Mitsuhashi、Susumu Ota、takagi、Toshio Nishida、y_morinaga、Yuki Namiuchi、Yukie Kawano、永原恒治、加藤纯、河越淳、岩田兼太朗、菊池満帆、熊田匡仁、江國翔太、佐野敏幸、山口裕輝、西井康隆、川村正春、片上舜、堀江吏将、林寛太 (Kanta Hayashi)