许可证:apache-2.0
语言:
- 日语
- 英语
库名称:transformers
标签:
- 日语
Tanuki-8B-dpo-v1.0
关于模型
Tanuki-8B是一个从头开始预训练、约8B参数的大规模语言模型,训练数据量约为1.3T token。
Tanuki-8x8B-dpo-v1.0通过SFT和DPO针对对话任务进行了优化。
更多详细信息请参阅博客文章。
本模型由GENIAC松尾研究室LLM开发项目组织开发,参与者包括公开招募的志愿者(企业员工、学生、研究人员等)。
量化模型
AWQ 4bit量化 GPTQ 4bit量化 GPTQ 8bit量化 GGUF量化*
*GGUF版本可能存在性能下降问题,不推荐使用
使用方法
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
model = AutoModelForCausalLM.from_pretrained("weblab-GENIAC/Tanuki-8B-dpo-v1.0", device_map="auto", torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained("weblab-GENIAC/Tanuki-8B-dpo-v1.0")
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
messages = [
{"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
{"role": "user", "content": "たぬきに純粋理性批判は理解できますか?"}
]
input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids,
max_new_tokens=1024,
temperature=0.5,
streamer=streamer)
提示格式
Tanuki-8B-dpo-v1.0采用日语版Alpaca的提示格式:
注意:本模型仅针对默认系统提示「以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。」进行了优化,建议使用此系统提示。任务细节应在用户提示中描述。
基准测试
人工评估
我们构建了模拟Chatbot Arena的系统进行盲测(详情见此处)。
公开全部评估数据(约2000条)。

Japanese MT-Bench
GPT-4评估(gpt-4-0613,计算平均分时排除-1分)
|
Tanuki-8B-dpo-v1.0 |
Tanuki-8x8B-dpo-v1.0 |
平均分 |
7.24 |
7.96 |
编程 |
5.4 |
6.75 |
信息提取 |
6.65 |
6.90 |
人文 |
9.1 |
9.3 |
数学 |
3.9 |
5.75 |
推理 |
5.75 |
7.35 |
角色扮演 |
8.75 |
8.95 |
STEM |
9.35 |
9.40 |
写作 |
9.05 |
8.85 |
开发成员
畠山欢 [负责人]、asaoka_tadashi、齐藤敦、Chattso-GPT、新田千寻、樋口千寻、Kohmoto Daichi、Esty、林英昭、盐谷宏亮、藤本一诚、Jie Zeng、白石仁成、西泽K.、西前和孝、渡边邦宏、Okamura Masaki、染谷美波、M先生、西、西岛、p1atdev、中川留美、三桥亮太、太田进、Takagi、西田敏夫、y_morinaga、Yuki Namiuchi、川野由纪惠、永原恒治、加藤纯、河越淳、岩田健太郎、菊池满帆、熊田匡仁、江国翔太、佐野敏幸、山口裕辉、西井康隆、川村正春、片上舜、堀江吏将、林宽太(Kanta Hayashi)