ViHealthBERT开源语言模型 - 免费用于越南语医疗健康文本挖掘

首页

Vihealthbert Base Word

由 demdecuong 开发

ViHealthBERT是面向越南语健康文本挖掘的预训练语言模型，在医疗健康领域提供强基线性能

大型语言模型

Transformers

#越南语医疗文本处理 #预训练语言模型 #命名实体识别

下载量 633

发布时间 : 4/20/2022

模型简介

专为越南语医疗健康文本设计的预训练语言模型，支持命名实体识别、缩略词消歧和文本摘要等任务

模型特点

医疗领域优化

针对越南语医疗健康文本进行专门预训练，在相关任务上表现优异

双分词器支持

提供词级和音节级两种分词器版本，适应不同应用场景

配套数据集

发布医疗缩略词数据集(acrDrAid)和常见问题摘要数据集

模型能力

越南语医疗文本理解

命名实体识别

缩略词消歧

文本摘要生成

使用案例

医疗信息处理

COVID-19实体识别

从越南语医疗文本中识别COVID-19相关实体

在COVID-19 & ViMQ数据集上达到SOTA性能

医疗缩略词解析

解析越南语医疗文档中的专业缩略词

在acrDrAid数据集上表现优异

医疗文本摘要

常见问题摘要

生成越南语医疗常见问题的简洁摘要

🚀 ViHealthBERT：用于越南语医疗文本挖掘的预训练语言模型

ViHealthBERT是医疗领域中用于越南语的强大基准语言模型。我们通过实验研究了采用不同训练策略的模型，在3个下游任务（命名实体识别（NER，包括COVID - 19和ViMQ）、缩略词消歧和文本摘要）上取得了当前最优（SOTA）性能。

我们推出了两个越南语数据集：医疗领域的缩略词数据集（acrDrAid）和常见问题解答摘要数据集。我们的acrDrAid数据集标注了135组关键词。

ViHealthBERT的通用方法和实验结果可在我们即将更新的LREC - 2022海报论文中查看：

@article{vihealthbert,
    title     = {{ViHealthBERT: Pre-trained Language Models for Vietnamese in Health Text Mining}},
    author    = {Minh Phuc Nguyen, Vu Hoang Tran, Vu Hoang, Ta Duc Huy, Trung H. Bui, Steven Q. H. Truong },
    journal   = {13th Edition of its Language Resources and Evaluation Conference},
    year      = {2022}
}

🚀 快速开始

本部分将引导你了解ViHealthBERT的安装、预训练模型信息及使用示例。

✨ 主要特性

针对越南语医疗领域，提供强大的预训练语言模型。
通过不同训练策略，在多个下游任务上取得当前最优性能。
推出两个越南语医疗领域数据集，且acrDrAid数据集标注了135组关键词。

📦 安装指南

环境要求：Python 3.6+，PyTorch >= 1.6
安装transformers库：

pip install transformers==4.2.0

📚 详细文档

预训练模型

模型	参数数量	架构	分词器
`demdecuong/vihealthbert-base-word`	1.35亿	基础	词级
`demdecuong/vihealthbert-base-syllable`	1.35亿	基础	音节级

💻 使用示例

基础用法

import torch
from transformers import AutoModel, AutoTokenizer

vihealthbert = AutoModel.from_pretrained("demdecuong/vihealthbert-base-word")
tokenizer = AutoTokenizer.from_pretrained("demdecuong/vihealthbert-base-word")

# 输入文本必须已经进行过分词！
line = "Tôi là sinh_viên trường đại_học Công_nghệ ."

input_ids = torch.tensor([tokenizer.encode(line)])
with torch.no_grad():
    features = vihealthbert(input_ids)  # 模型输出现在是元组形式

高级用法

原始文本使用示例

由于ViHealthBERT使用了来自VnCoreNLP的RDRSegmenter对预训练数据进行预处理，我们强烈建议在ViHealthBERT的下游应用中使用相同的分词器。

安装步骤

# 安装vncorenlp的Python包装器
pip3 install vncorenlp

# 下载VnCoreNLP - 1.1.1.jar及其分词组件（即RDRSegmenter）
mkdir -p vncorenlp/models/wordsegmenter
wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/VnCoreNLP-1.1.1.jar
wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/vi-vocab
wget https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/wordsegmenter.rdr
mv VnCoreNLP-1.1.1.jar vncorenlp/ 
mv vi-vocab vncorenlp/models/wordsegmenter/
mv wordsegmenter.rdr vncorenlp/models/wordsegmenter/

VnCoreNLP - 1.1.1.jar（27MB）和models/文件夹必须放在同一工作目录中。

使用示例

# 更多细节请参考：https://github.com/vncorenlp/VnCoreNLP

# 从VnCoreNLP加载rdrsegmenter
from vncorenlp import VnCoreNLP
rdrsegmenter = VnCoreNLP("/Absolute-path-to/vncorenlp/VnCoreNLP-1.1.1.jar", annotators="wseg", max_heap_size='-Xmx500m') 

# 输入文本
text = "Ông Nguyễn Khắc Chúc  đang làm việc tại Đại học Quốc gia Hà Nội. Bà Lan, vợ ông Chúc, cũng làm việc tại đây."

# 进行分词（和句子分割）
sentences = rdrsegmenter.tokenize(text) 
for sentence in sentences:
    print(" ".join(sentence))