库名称: transformers
许可证: apache-2.0
基础模型: Qwen/Qwen2.5-7B-Instruct-1M
标签:
- 梵语
- 翻译
- qwen
- axolotl
数据集:
- diabolic6045/Sanskrit-llama
模型索引:
- 名称: Sanskrit-qwen-7B-Translate
结果: []
Sanskrit-qwen-7B-Translate
该模型是基于Qwen/Qwen2.5-7B-Instruct-1M微调的版本,专为梵语任务优化。
模型描述
这是经过微调的Qwen 2.5 7B模型的合并版本,专门针对梵语理解和翻译任务训练。该模型在自定义梵语数据集上进行了训练,以增强其处理梵语文本的能力。
预期用途与限制
预期用途
- 梵语文本理解与生成
- 梵语-英语翻译任务
- 梵语语言处理
限制
- 性能可能因梵语文本的复杂性而异
- 模型应在道德和法律准则范围内使用
训练数据
该模型在diabolic6045/Sanskrit-llama数据集上进行了训练。
训练过程
训练细节
- 基础模型: Qwen/Qwen2.5-7B-Instruct-1M
- 训练类型: 微调
- 硬件: 多GPU设置
- 训练参数:
- 学习率: 2e-05
- 训练轮数: 1
- 批量大小: 2(总计)
- 优化器: AdamW
- 学习率调度器: 带热启动的余弦
框架版本
- Transformers 4.49.0
- Pytorch 2.5.1+cu121
- Datasets 3.2.0
- Tokenizers 0.21.0

查看axolotl配置
axolotl版本: 0.8.0.dev0
base_model: Qwen/Qwen2.5-7B-Instruct-1M
load_in_8bit: false
load_in_4bit: true
strict: false
datasets:
- path: diabolic6045/Sanskrit-llama
type: alpaca
dataset_prepared_path:
val_set_size: 0
output_dir: ./outputs/qlora-out
adapter: qlora
lora_model_dir:
sequence_len: 1024
sample_packing: true
eval_sample_packing: false
pad_to_sequence_len: true
lora_r: 32
lora_alpha: 16
lora_dropout: 0.05
lora_target_modules:
lora_target_linear: true
lora_fan_in_fan_out:
hub_model_id: Sanskrit-qwen-8B
wandb_project: संस्कृतम्-llama
wandb_entity:
wandb_watch: all
wandb_name: संस्कृतम्-llama
wandb_log_model:
gradient_accumulation_steps: 1
micro_batch_size: 1
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
cosine_min_lr_ratio: 0.2
learning_rate: 2e-5
train_on_inputs: false
group_by_length: false
bf16: false
fp16:
tf32: false
gradient_checkpointing: true
early_stopping_patience:
resume_from_checkpoint:
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: false
warmup_steps: 10
evals_per_epoch: 4
saves_per_epoch: 1
debug:
deepspeed: deepspeed_configs/zero1.json
weight_decay: 0.0
special_tokens:
pad_token: <|end_of_text|>
许可证
本模型基于Apache 2.0许可证发布。