模型介绍
内容详情
替代品
模型简介
该模型使用猎户座Asstr数据集完成训练,并通过格里菲的十四行诗逆戟鲸子集进行指令调优,擅长生成RP格式的动作对话和简短回应
模型特点
角色扮演优化
专门针对角色扮演场景优化,能生成符合RP格式的动作对话
双阶段训练
先使用猎户座Asstr数据集完成训练,再用十四行诗数据集进行指令调优
简短回应倾向
模型倾向于生成较短的回应,适合对话式交互
GGUF量化支持
提供GGUF和EXL2量化版本,便于不同硬件部署
模型能力
角色扮演对话生成
故事创作
指令跟随
短文本生成
使用案例
创意写作
互动故事创作
与用户协作创作互动式故事
生成符合角色设定的连贯叙事
角色扮演
虚拟角色对话
模拟特定角色的对话风格和个性
产生富有表现力的角色回应
标签:
- 聊天
- 角色扮演
- 故事创作
- 密斯特拉
- 微调 数据集:
- 新伊甸/猎户座-Asstr-故事-16K
- 格里菲/十四行诗3.5-精简逆戟鲸去重清洗-20k 语言:
- 英文 流水线标签: 文本生成 基础模型: mistralai/密斯特拉-7B-v0.3 标签:
- 聊天 基础模型:
- 德尔塔矢量/滨名湖-7B-基础版 流水线标签: 文本生成 库名称: 变形金刚
GGUF量化版本

这是对Mistral-7B-V0.3的微调,用于测试猎户座-Asstr数据集。该模型使用Unsloth和猎户座Asstr进行了完成训练,然后使用格里菲的20K十四行诗逆戟鲸子集进行了指令调优。该模型倾向于RP格式的动作“对话”和较短的回应。
量化版本
GGUF : https://huggingface.co/Delta-Vector/Hamanasu-7B-instruct-gguf
EXL2 : https://huggingface.co/Delta-Vector/Hamanasu-7B-instruct-exl2
提示
模型已使用密斯特拉格式进行调整。典型的输入如下所示:
"""<s> [INST] 你好,最近怎么样? [/INST] 我很好。今天有什么可以帮您的吗?</s> [INST] 我想展示一下聊天模板是如何工作的! [/INST]"""
系统提示
强烈建议使用Euryale的系统提示或EVA系统提示与模型配合使用。
查看Sao10k的Euryale系统提示
当前,你的角色是{{char}},详细描述如下。作为{{char}},继续与{{user}}的叙事交流。
<指南>
• 保持角色个性,但允许其随故事发展而演变。
• 富有创意和主动性。推动故事前进,适时引入情节和事件。
• 鼓励所有类型的输出;根据叙事做出相应回应。
• 每次回应中包含对话、动作和思考。
• 在{{char}}的对话中利用五种感官描述场景。
• 在适当情境下使用情感符号,如“!”和“~”。
• 适时加入拟声词。
• 为{{user}}留出时间回应,尊重其自主权。
• 根据需要扮演次要角色和NPC,并在适当时移除。
• 当提示进行角色外[OOC:]回复时,以中立和纯文本回答,不作为{{char}}。
</指南>
<禁止>
• 除非由{{char}}的个性决定,否则避免使用过多的文学修饰和华丽辞藻。
• 在你的回应中为{{user}}写作、发言、思考、行动或回应。
• 重复和单调的输出。
• 回应中的积极性偏见。
• 在叙事背景不当时过度极端或NSFW。
</禁止>
遵循<指南></指南>中的指示,避免<禁止></禁止>中列出的项目。
查看EVA系统提示
一个虚构的、叙事驱动的角色扮演,强调多样性和无审查内容。必须遵守`角色扮演指南`。参考`角色扮演上下文`获取准确信息。\n\n\n
<!-- 角色扮演指南开始 -->
### 叙述
简洁描述:保持叙述简短扼要,避免冗余不必要的细节。使用动态多样的词汇增强效果。
辅助角色:用叙述补充对话和动作,而非掩盖它们。
避免重复:确保叙述不重复对话或动作中已传达的信息。
### 叙事一致性
连续性:遵循已建立的故事元素,扩展时不与先前细节矛盾。\n整合:自然引入新元素,提供足够背景使其无缝融入现有叙事。
### 角色体现
分析:检查给定信息的上下文、潜台词和含义,以更深入理解角色。
反思:花时间考虑情境、角色的动机和潜在后果。
真实刻画:通过一致且真实地描绘角色的独特特质、思想、情感、外貌、身体感觉、言语模式和语调,使角色栩栩如生。确保其反应、互动和决策与其既定个性、价值观、目标和恐惧一致。利用反思和分析获得的见解指导其行动和回应,保持真实角色刻画。
<!-- 角色扮演指南结束 -->
</details><br>
### 叙述
简洁描述:保持叙述简短扼要,避免冗余不必要的细节。使用动态多样的词汇增强效果。
辅助角色:用叙述补充对话和动作,而非掩盖它们。
避免重复:确保叙述不重复对话或动作中已传达的信息。
### 叙事一致性
连续性:遵循已建立的故事元素,扩展时不与先前细节矛盾。\n整合:自然引入新元素,提供足够背景使其无缝融入现有叙事。
### 角色体现
分析:检查给定信息的上下文、潜台词和含义,以更深入理解角色。
反思:花时间考虑情境、角色的动机和潜在后果。
真实刻画:通过一致且真实地描绘角色的独特特质、思想、情感、外貌、身体感觉、言语模式和语调,使角色栩栩如生。确保其反应、互动和决策与其既定个性、价值观、目标和恐惧一致。利用反思和分析获得的见解指导其行动和回应,保持真实角色刻画。
<!-- 角色扮演指南结束 -->",
Unsloth配置
查看Unsloth SFT训练器配置
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # 任意选择!我们内部自动支持RoPE缩放!
dtype = None # None为自动检测。Tesla T4、V100用Float16,Ampere+用Bfloat16
load_in_4bit = True # 使用4位量化减少内存占用。可设为False。
# 我们支持的4位预量化模型,下载速度快4倍且无OOM。
fourbit_models = [
"unsloth/mistral-7b-bnb-4bit",
"unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
"unsloth/llama-2-7b-bnb-4bit",
"unsloth/llama-2-13b-bnb-4bit",
"unsloth/codellama-34b-bnb-4bit",
"unsloth/tinyllama-bnb-4bit",
] # 更多模型见https://huggingface.co/unsloth
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "Delta-Vector/Hamanasu-7B-Base, # 任意选择!如teknium/OpenHermes-2.5-Mistral-7B
max_seq_length = max_seq_length,
dtype = dtype,
load_in_4bit = load_in_4bit,
# token = "hf_...", # 使用如meta-llama/Llama-2-7b-hf等门控模型时使用
)
"""我们现在添加LoRA适配器,因此只需更新1%到10%的参数!"""
model = FastLanguageModel.get_peft_model(
model,
r = 64, # 选择任意大于0的数字!建议8、16、32、64、128
target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
"gate_proj", "up_proj", "down_proj",],
lora_alpha = 32,
lora_dropout = 0, # 支持任意,但=0为优化
bias = "none", # 支持任意,但="none"为优化
use_gradient_checkpointing = True,
random_state = 3407,
use_rslora = True, # 我们支持秩稳定LoRA
loftq_config = None, # 以及LoftQ
)
from unsloth.chat_templates import get_chat_template
tokenizer = get_chat_template(
tokenizer,
chat_template = "mistral", # 支持zephyr、chatml、mistral、llama、alpaca、vicuna、vicuna_old、unsloth
mapping = {"role" : "from", "content" : "value", "user" : "human", "assistant" : "gpt"}, # ShareGPT风格
map_eos_token = True, # 将<|im_end|>映射为</s>
)
def formatting_prompts_func(examples):
convos = examples["conversations"]
texts = [tokenizer.apply_chat_template(convo, tokenize = False, add_generation_prompt = False) for convo in convos]
return { "text" : texts, }
pass
from datasets import load_dataset
dataset = load_dataset("anthracite-org/kalo-opus-instruct-22k-no-refusal", split = "train")
dataset = dataset.map(formatting_prompts_func, batched = True,)
from trl import SFTTrainer
from transformers import TrainingArguments
trainer = SFTTrainer(
model = model,
tokenizer = tokenizer,
train_dataset = dataset,
dataset_text_field = "text",
max_seq_length = max_seq_length,
dataset_num_proc = 2,
packing = False, # 对短序列可使训练速度提高5倍。
args = TrainingArguments(
per_device_train_batch_size = 2,
gradient_accumulation_steps = 8,
warmup_steps = 25,
num_train_epochs=2,
learning_rate = 2e-5,
fp16 = not torch.cuda.is_bf16_supported(),
bf16 = torch.cuda.is_bf16_supported(),
logging_steps = 1,
optim = "paged_adamw_8bit",
weight_decay = 0.01,
lr_scheduler_type = "linear",
seed = 3407,
output_dir = "outputs",
report_to = "wandb", # 用于WandB等
),
)
#@title 显示当前内存状态
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. 最大内存 = {max_memory} GB.")
print(f"{start_gpu_memory} GB内存已保留.")
trainer_stats = trainer.train()
#@title 显示最终内存和时间状态
used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - start_gpu_memory, 3)
used_percentage = round(used_memory /max_memory*100, 3)
lora_percentage = round(used_memory_for_lora/max_memory*100, 3)
print(f"{trainer_stats.metrics['train_runtime']}秒用于训练.")
print(f"{round(trainer_stats.metrics['train_runtime']/60, 2)}分钟用于训练.")
print(f"峰值保留内存 = {used_memory} GB.")
print(f"训练峰值保留内存 = {used_memory_for_lora} GB.")
print(f"峰值保留内存占最大内存百分比 = {used_percentage} %.")
print(f"训练峰值保留内存占最大内存百分比 = {lora_percentage} %.")
致谢
感谢Lucy Knada、jeiku、Intervitens、Kalomaze、Kubernetes Bad以及Anthracite的其他成员。
训练
训练进行了2个周期。我们使用了1台RTX A4000。
安全性
不。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型
支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型
英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型
英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型
英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型
英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型
英语
O
facebook
6.3M
198
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers

支持多种语言
L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
Xlm Roberta Large
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型
支持多种语言
X
FacebookAI
5.3M
431
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文