许可证:apache-2.0
语言:
- 日语
- 英语
库名称:transformers
标签:
- 日语
Tanuki-8x8B-dpo-v1.0
关于模型
Tanuki-8x8B是从零开始预训练的大规模语言模型,参数规模为8x8B(总参数约47B,活跃参数约13B),预训练数据量约1.7T tokens。
Tanuki-8x8B-dpo-v1.0通过SFT和DPO针对对话任务进行了优化。
更多详细信息请参阅博客文章。
该模型由GENIAC松尾研究室LLM开发项目组织开发,参与者包括公开招募的志愿者(企业员工、学生、研究人员等)。
量化模型
AWQ 4bit量化 | GPTQ 4bit量化 | GPTQ 8bit量化 | GGUF量化*
*GGUF版本可能存在性能下降,不推荐使用
使用方法
关于Tanuki-8x8B及其量化模型的各种推理方法,请参阅此文章。
以下是部分推理方法的说明。
本模型推理必须使用flash attention,请按以下方式安装:
pip install --no-build-isolation flash_attn
以下是使用HuggingFace Transformers进行推理的示例代码:
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
model = AutoModelForCausalLM.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0", device_map="auto", torch_dtype="auto", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("weblab-GENIAC/Tanuki-8x8B-dpo-v1.0")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
messages = [
{"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
{"role": "user", "content": "たぬきに純粋理性批判は理解できますか?"}
]
input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids,
max_new_tokens=1024,
temperature=0.5,
streamer=streamer)
如需使用vLLM进行推理,需适配其自定义架构。请从此链接构建修改版vLLM:
git clone https://github.com/team-hatakeyama-phase2/vllm.git
cd vllm
LD_LIBRARY_PATH="" MAX_JOBS=16 pip install -e .
以下是使用vLLM进行推理的示例代码:
from time import time
from vllm import LLM, SamplingParams
model_name = "weblab-GENIAC/Tanuki-8x8B-dpo-v1.0"
vllm = LLM(model_name, trust_remote_code=True, tensor_parallel_size=2)
tokenizer = vllm.get_tokenizer()
messages = [
{"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
{"role": "user", "content": "たぬきに純粋理性批判は理解できますか?"}
]
inputs_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
print(f"inputs_text: {inputs_text}")
sampling_params = SamplingParams(temperature=0.0, max_tokens=1024, seed=1, repetition_penalty=1.1)
start = time()
outputs = vllm.generate(inputs_text, sampling_params=sampling_params, use_tqdm=False)
end = time()
outputs_text = outputs[0].outputs[0].text
print(f"outputs_text: {outputs_text}")
print(f"Elapsed time: {(end - start):.4f} sec.")
提示格式
Tanuki-8x8B-dpo-v1.0采用日语版Alpaca的提示格式:
注意:本模型默认系统提示为「以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。」,未学习其他系统提示,建议使用此默认提示。任务详情应在用户提示中描述。
基准测试
人工评估
模拟Chatbot Arena系统进行盲测(详情见此链接)
公开全部评估数据(约2000条)

Japanese MT-Bench
GPT-4评估(gpt-4-0613,计算平均分时排除-1分)
|
Tanuki-8B-dpo-v1.0 |
Tanuki-8x8B-dpo-v1.0 |
平均分 |
7.24 |
7.96 |
编程 |
5.4 |
6.75 |
信息提取 |
6.65 |
6.90 |
人文 |
9.1 |
9.3 |
数学 |
3.9 |
5.75 |
逻辑推理 |
5.75 |
7.35 |
角色扮演 |
8.75 |
8.95 |
STEM |
9.35 |
9.40 |
写作 |
9.05 |
8.85 |
开发成员
畠山欢 [负责人]、asaoka_tadashi、Atsushi Saito、Chattso-GPT、Chihiro Arata、Chihiro HIGUCHI、Daichi Kohmoto、Esty、Hideaki Hayashi、hiroaki shioya、Issei Fujimoto、Jie Zeng、Jinsei Shiraishi、K. Nishizawa、Kazutaka Nishimae、Kunihiro Watanabe、masaki okamura、Minami Someya、Mさん、Nishi、Nishijima、p1atdev、Rumi Nakagawa、Ryota Mitsuhashi、Susumu Ota、takagi、Toshio Nishida、y_morinaga、Yuki Namiuchi、Yukie Kawano、永原恒治、加藤纯、河越淳、岩田兼太朗、菊池满帆、熊田匡仁、江国翔太、佐野敏幸、山口裕辉、西井康隆、川村正春、片上舜、堀江吏将、林宽太(Kanta Hayashi)