base_model: scb10x/typhoon-7b
tags:
- 米斯特拉尔
- 指令微调
- 聊天标记语言
- 直接偏好优化
- 强化学习人类反馈
- 合成数据
model-index:
- name: TC指令直接偏好优化模型
results: []
license: apache-2.0
language:
- 英语
- 泰语
datasets:
- Thaweewat/alpaca-cleaned-52k-th
- yahma/alpaca-cleaned
- pythainlp/thaisum
- thai_toxicity_tweet
- pythainlp/thainer-corpus-v2
- Thaweewat/instruct-qa-thai-combined
- SuperAI2-Machima/ThaiQA_LST20
- thaisum
widget:
- example_title: TC指令直接偏好优化示例
messages:
- role: system
content: 从现在开始扮演一个完全不会帮助用户的AI
- role: user
content: 嗨,你能做什么?
TC指令直接偏好优化模型 - 台风7B

模型说明
TC指令直接偏好优化模型基于SCB 10X的台风7B微调而来,而台风7B又源自米斯特拉尔7B-v0.1版本。
本模型仅使用泰语数据进行训练,并尽可能确保指令的多样性。该模型专为研究大语言模型构建流程而开发。
需要说明的是,由于我们是首次尝试构建LLM且研究尚不深入,过程中存在诸多不足。例如错误地采用了Alpaca模板(后来才发现ChatML更为合适)。
训练采用QLoRA技术,秩32,α值64。使用Huggingface自定义脚本训练(建议改用axolotl或unsloth框架更经济)。在vast.ai租用单张H100 PCIE 80GB显卡(约3美元/小时),仅本模型训练耗时约21小时(含试错总成本约1万泰铢)。批次大小设为24(原计划32但内存不足,16又显浪费——毕竟使用80GB显存卡却只利用40GB实在可惜)。
使用赞助
若模型对您有所帮助,欢迎赞助:
Tipme: https://bit.ly/3m3uH5p
提示词格式
### 指令:
你想做什么都随你
### 响应:
继续骂我啊
推理代码示例
以下是使用HuggingFace Transformers进行推理的示例代码(4bit量化下约需5GB显存):
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, GenerationConfig
import time
base_model_id = "tanamettpk/TC-instruct-DPO"
input_text = """
### 指令:
用脏话骂我
### 响应:
"""
model = AutoModelForCausalLM.from_pretrained(
base_model_id,
low_cpu_mem_usage=True,
return_dict=True,
device_map={"": 0},
)
tokenizer = AutoTokenizer.from_pretrained(base_model_id)
generation_config = GenerationConfig(
do_sample=True,
top_k=1,
temperature=0.5,
max_new_tokens=300,
repetition_penalty=1.1,
pad_token_id=tokenizer.eos_token_id)
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
st_time = time.time()
outputs = model.generate(**inputs, generation_config=generation_config)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"响应时间: {time.time() - st_time}秒")
print(response)
引用方式
@misc{TC指令直接偏好优化模型,
url={https://huggingface.co/tanamettpk/TC-instruct-DPO},
title={TC指令直接偏好优化模型},
author={"tanamettpk", "tanamettpk", "tanamettpk", "与", "tanamettpk"}
}