许可证: mit
数据集:
- Egor-AI/Russian_thinking_dataset
语言:
- ru
- en
基础模型:
- evilfreelancer/o1_gigachat-20b-a3b_lora
管道标签: question-answering
标签:
- chat
- o1
- cot
- thinking
- reflection
俄语o1/GigaChat 20B-A3B指令GGUF模型
https://huggingface.co/evilfreelancer/o1_gigachat-20b-a3b_lora
这是为GigaChat-20B-A3B模型训练的LoRA适配器,训练数据来自Egor-AI/Russian_thinking_dataset(该数据集是BintangFortuna/OpenO1-SFT-EN-SY的俄语机器翻译版本)。
训练后的模型能够模仿俄语的逻辑思考过程,类似于OpenAI的o1
模型。
使用时需采用以下系统提示模板:
您是一个AI助手。请按以下格式组织回答:<Thought>您的思考(理解、推理过程)</Thought> <output>您的回答</output>
W&B训练报告:https://api.wandb.ai/links/evilfreelancer/nlec8bt8
训练使用impruver工具完成,配置方案参见GigaChat/20B-A3B_lora_o1。
在RTX 4090显卡上耗时约117小时,显存占用23GB。
输出目录: ./models/GigaChat_20B-A3B_lora_thinking
训练路径: ./train.GigaChat_20B-A3B_lora_thinking.jsonl
验证路径: ./val.GigaChat_20B-A3B_lora_thinking.jsonl
数据集:
- 名称: Egor-AI/Russian_thinking_dataset
转换器: impruver.instruction_to_messages
映射关系:
系统: system
指令: prompt
输出: response
模型:
类: custom.gigachat.DeepseekForCausalLM
名称: ai-sage/GigaChat-20B-A3B-instruct-bf16
注意力实现: flash_attention_2
4位加载: true
8位加载: false
数据类型: bf16
LoRA配置:
r值: 8
alpha值: 32
丢弃率: 0.1
偏置: none
目标模块: [ q_proj, v_proj, k_proj, o_proj, gate_proj, down_proj, up_proj ]
任务类型: CAUSAL_LM
分词器:
类: transformers.AutoTokenizer
名称: ai-sage/GigaChat-20B-A3B-instruct
最大标记数: 1500
特殊标记:
填充标记ID: 1
填充标记: <s>
起始标记ID: 1
起始标记: <s>
结束标记ID: 128001
结束标记: <|message_sep|>
对话模板: >
{% if messages[0]['role'] == 'system' -%}
{%- set loop_messages = messages[1:] -%}
{%- set system_message = bos_token + messages[0]['content'] + additional_special_tokens[1] -%}
{%- else -%}
{%- set loop_messages = messages -%}
{%- set system_message = bos_token + '' -%}
{%- endif -%}
{%- for message in messages %}
{%- if message['role'] == 'system' -%}
{{ system_message -}}
{%- endif -%}
{%- if message['role'] == 'user' -%}
{{ message['role'] + additional_special_tokens[0] + message['content'] + additional_special_tokens[1] -}}
{{ '可用功能' + additional_special_tokens[0] + additional_special_tokens[2] + additional_special_tokens[3] + additional_special_tokens[1] -}}
{%- endif -%}
{%- if message['role'] == 'assistant' -%}
{{ message['role'] + additional_special_tokens[0] + message['content'] + additional_special_tokens[1] -}}
{%- endif -%}
{%- if loop.last and add_generation_prompt -%}
{{ '助手' + additional_special_tokens[0] -}}
{%- endif -%}
{%- endfor %}
训练器配置:
评估策略: steps
保存策略: steps
评估间隔: 100步
保存间隔: 100步
单设备训练批次: 1
单设备评估批次: 1
梯度累积步数: 8
日志间隔: 1步
学习率: 0.0004
训练轮次: 2
学习率调度器: cosine
预热步数: 16
优化器: adamw_torch_4bit
最优模型指标: eval_loss
训练完成加载最优模型: true
最大保存数: 2
随机种子: 42
移除未使用列: false
最大梯度范数: 1.0
权重衰减: 0.08
torch编译: false