language: zh
越南语BERT模型基于超过20GB新闻数据集训练
适用于情感分析任务,使用AIViVN评论数据集
该模型在公开排行榜上获得0.90268分(冠军得分为0.90087)
Bert4news被用于ViNLP工具包(https://github.com/bino282/ViNLP)中的越南语工具(分词和命名实体识别)
我们使用word sentencepiece,采用基础bert分词方式,配置与bert base相同且保持小写=False。
可下载预训练模型:
通过huggingface/transformers使用:
import torch
from transformers import BertTokenizer,BertModel
tokenizer= BertTokenizer.from_pretrained("NlpHUST/vibert4news-base-cased")
bert_model = BertModel.from_pretrained("NlpHUST/vibert4news-base-cased")
line = "我是河内科技大学的学生。"
input_id = tokenizer.encode(line,add_special_tokens = True)
att_mask = [int(token_id > 0) for token_id in input_id]
input_ids = torch.tensor([input_id])
att_masks = torch.tensor([att_mask])
with torch.no_grad():
features = bert_model(input_ids,att_masks)
print(features)
基于BERT的越南语工具包
ViNLP是越南语系统标注工具,使用预训练模型Bert4news微调处理越南语分词、命名实体识别(NER)等NLP任务并实现高准确率。
安装
git clone https://github.com/bino282/ViNLP.git
cd ViNLP
python setup.py develop build
分词测试
在VLSP 2013数据集上F1得分达0.984
模型 |
F1值 |
BertVnTokenizer |
98.40 |
DongDu |
96.90 |
JvnSegmenter-Maxent |
97.00 |
JvnSegmenter-CRFs |
97.06 |
VnTokenizer |
97.33 |
UETSegmenter |
97.87 |
VnTokenizer |
97.33 |
VnCoreNLP (即RDRsegmenter) |
97.90 |
from ViNLP import BertVnTokenizer
tokenizer = BertVnTokenizer()
sentences = tokenizer.split(["美国总统特朗普签署行政令,禁止45天后美国与字节跳动及腾讯——两款流行应用TikTok和微信的所有者进行任何交易。"])
print(sentences[0])
输出:
美国总统 特朗普 签署 行政令 禁止 美国 与 字节跳动 及 腾讯 —— 两款 流行 应用 TikTok 和 微信 的 所有者 进行 任何 交易 。
命名实体识别测试
在VLSP 2018数据集上对所有命名实体(包括嵌套实体)的F1得分达0.786
模型 |
F1值 |
BertVnNer |
78.60 |
VNER Attentive Neural Network |
77.52 |
vietner CRF (ngrams + word shapes + cluster + w2v) |
76.63 |
ZA-NER BiLSTM |
74.70 |
from ViNLP import BertVnNer
bert_ner_model = BertVnNer()
sentence = "据《南华早报》报道,CSIS报告《塑造美国对华政策未来》也显示专家们对禁止中国电信巨头华为公司获得广泛支持"
entities = bert_ner_model.annotate([sentence])
print(entities)
输出:
[{'ORGANIZATION': ['南华早报', 'CSIS', '华为'], 'LOCATION': ['美国', '中国']}]
使用基础配置训练:
python train_pytorch.py \\
--model_path=bert4news.pytorch \\
--max_len=200 \\
--batch_size=16 \\
--epochs=6 \\
--lr=2e-5
联系方式
项目相关咨询请联系Nha Nguyen Van (nha282@gmail.com)。