Bert Base Turkish Ner Cased

由 savasy 开发

这是一个基于BERT架构的土耳其语命名实体识别模型，适用于土耳其语文本中的实体识别任务。

序列标注

其他

#土耳其语命名实体识别 #高精度NER #迁移学习优化

下载量 1,269

发布时间 : 3/2/2022

模型介绍

内容详情

替代品

模型简介

该模型使用BERT架构和迁移学习技术，针对土耳其语进行了优化，能够识别文本中的人名、地名、时间等实体。

模型特点

高精度实体识别

在土耳其语文本上表现出色，F1分数达到0.925以上。

基于BERT架构

利用预训练的BERT模型进行微调，获得更好的语言理解能力。

迁移学习

通过迁移学习技术，在有限的数据集上实现了高性能。

模型能力

识别土耳其语文本中的命名实体

处理土耳其语特定语言特征

支持多种实体类型识别

使用案例

文本分析

历史文本分析

分析土耳其历史文本中的人物、地点和时间信息

能准确识别如'Mustafa Kemal Atatürk'等人名和'19 Mayıs 1919'等日期

新闻内容分析

从土耳其语新闻中提取关键实体信息

language: tr

针对土耳其语，这里有一个易于使用的命名实体识别（NER）应用。

** 适用于土耳其语的简易Python NER（Bert + 迁移学习）模型（命名实体识别）...

引用

如果您在研究中使用了本模型，请引用以下文献：

@misc{yildirim2024finetuning,  
      title={Fine-tuning Transformer-based Encoder for Turkish Language Understanding Tasks},   
      author={Savas Yildirim},  
      year={2024},  
      eprint={2401.17396},  
      archivePrefix={arXiv},  
      primaryClass={cs.CL}  
}  

@book{yildirim2021mastering,  
  title={Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques},  
  author={Yildirim, Savas and Asgari-Chenaghlu, Meysam},  
  year={2021},  
  publisher={Packt Publishing Ltd}  
}

其他细节

感谢@stefan-it，我在训练中应用了以下步骤：

cd tr-data  

for file in train.txt dev.txt test.txt labels.txt  
do  
  wget https://schweter.eu/storage/turkish-bert-wikiann/$file  
done  

cd ..

这将下载预处理好的数据集（包括训练集、验证集和测试集），并将其放入tr-data文件夹中。

运行预训练

下载数据集后，可以开始预训练。只需设置以下环境变量：

export MAX_LENGTH=128  
export BERT_MODEL=dbmdz/bert-base-turkish-cased   
export OUTPUT_DIR=tr-new-model  
export BATCH_SIZE=32  
export NUM_EPOCHS=3  
export SAVE_STEPS=625  
export SEED=1

然后运行预训练命令：

python3 run_ner_old.py --data_dir ./tr-data3 \  
--model_type bert \  
--labels ./tr-data/labels.txt \  
--model_name_or_path $BERT_MODEL \  
--output_dir $OUTPUT_DIR-$SEED \  
--max_seq_length $MAX_LENGTH \  
--num_train_epochs $NUM_EPOCHS \  
--per_gpu_train_batch_size $BATCH_SIZE \  
--save_steps $SAVE_STEPS \  
--seed $SEED \  
--do_train \  
--do_eval \  
--do_predict \  
--fp16

使用方法

from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer  
model = AutoModelForTokenClassification.from_pretrained("savasy/bert-base-turkish-ner-cased")  
tokenizer = AutoTokenizer.from_pretrained("savasy/bert-base-turkish-ner-cased")  
ner = pipeline('ner', model=model, tokenizer=tokenizer)  
ner("Mustafa Kemal Atatürk 19 Mayıs 1919'da Samsun'a ayak bastı.")