language:
- 韩文
- 英文
pipeline_tag: 文本生成
tags:
- 小羊驼模型
- 美洲驼模型
KoreanLM:韩语语言模型项目
KoreanLM是专为开发韩语语言模型打造的开源项目。当前大多数语言模型主要聚焦英语领域,导致韩语训练相对不足且在分词过程中存在效率问题。为破解这一困境并提供韩语优化模型,我们启动了KoreanLM项目。
项目目标
-
开发韩语专属语言模型:通过融合韩语语法、词汇及文化特性,构建能更精准理解和生成韩语的模型。
-
引入高效分词方案:采用针对韩语文本的新型分词技术,提升模型处理效率与准确性。
-
改善大模型可用性:针对企业难以对现有大模型进行微调的问题,通过优化模型规模提升易用性,使其更便捷应用于自然语言处理任务。
使用方法
KoreanLM通过GitHub仓库发布,可通过以下命令安装:
git clone https://github.com/quantumaikr/KoreanLM.git
cd KoreanLM
pip install -r requirements.txt
示例代码
以下是通过transformers库加载模型与分词器的示例:
import transformers
model = transformers.AutoModelForCausalLM.from_pretrained("quantumaikr/KoreanLM")
tokenizer = transformers.AutoTokenizer.from_pretrained("quantumaikr/KoreanLM")
训练(微调)
torchrun --nproc_per_node=4 --master_port=1004 train.py \
--model_name_or_path quantumaikr/KoreanLM \
--data_path korean_data.json \
--num_train_epochs 3 \
--cache_dir './data' \
--bf16 True \
--tf32 True \
--per_device_train_batch_size 4 \
--per_device_eval_batch_size 4 \
--gradient_accumulation_steps 8 \
--evaluation_strategy "no" \
--save_strategy "steps" \
--save_steps 500 \
--save_total_limit 1 \
--learning_rate 2e-5 \
--weight_decay 0. \
--warmup_ratio 0.03 \
--lr_scheduler_type "cosine" \
--logging_steps 1 \
--fsdp "full_shard auto_wrap" \
--fsdp_transformer_layer_cls_to_wrap 'OPTDecoderLayer' \
pip install deepspeed
torchrun --nproc_per_node=4 --master_port=1004 train.py \
--deepspeed "./deepspeed.json" \
--model_name_or_path quantumaikr/KoreanLM \
--data_path korean_data.json \
--num_train_epochs 3 \
--cache_dir './data' \
--bf16 True \
--tf32 True \
--per_device_train_batch_size 4 \
--per_device_eval_batch_size 4 \
--gradient_accumulation_steps 8 \
--evaluation_strategy "no" \
--save_strategy "steps" \
--save_steps 2000 \
--save_total_limit 1 \
--learning_rate 2e-5 \
--weight_decay 0. \
--warmup_ratio 0.03 \
训练(LoRA)
python finetune-lora.py \
--base_model 'quantumaikr/KoreanLM' \
--data_path './korean_data.json' \
--output_dir './KoreanLM-LoRA' \
--cache_dir './data'
推理
python generate.py \
--load_8bit \
--share_gradio \
--base_model 'quantumaikr/KoreanLM' \
--lora_weights 'quantumaikr/KoreanLM-LoRA' \
--cache_dir './data'
预训练模型与在线演示
模型下载
* 演示链接即将公布