xlm-roberta-capu开源越南语标点恢复模型 - 精准预测纯小写文本标点与大写形式

首页

Xlm Roberta Capu

由 dragonSwing 开发

基于XLM-RoBERTa微调的越南语标点恢复模型，可预测纯小写文本的标点符号和大写形式

序列标注

Transformers

其他#越南语文本修复 #ASR后处理 #多标点预测

下载量 1,722

发布时间 : 5/11/2022

模型简介

该模型用于恢复越南语文本中的标点符号和大写形式，适用于语音识别输出或其他丢失标点的文本处理场景。支持恢复常见标点符号（. , : ?）和复杂单词的大写形式。

模型特点

多标点恢复

支持恢复句号、逗号、冒号和问号四种常见标点符号

智能大写转换

能准确还原复杂专有名词的大写形式，如YouTube、MobiFone等

长文本处理

可处理任意长度的越南语文本，内置分块处理机制

高准确率

在测试集上达到0.89的F1值，专有名词识别准确率达0.93

模型能力

文本标点恢复

大小写转换

越南语文本处理

语音识别后处理

使用案例

语音识别后处理

ASR输出文本规范化

将语音识别系统输出的无标点小写文本转换为规范格式

提升ASR输出文本的可读性和专业性

文本预处理

社交媒体文本规范化

处理社交媒体中的非规范化越南语文本

使非正式文本符合正式写作规范

🚀 XLM - RoBERTa 大小写与标点恢复模型

本项目是一个基于 [XLM - RoBERTa](https://huggingface.co/xlm - roberta - base) 微调的模型，用于在 [OSCAR - 2109](https://huggingface.co/datasets/oscar - corpus/OSCAR - 2109) 数据集上进行越南语的标点恢复。该模型能够预测纯小写文本的标点和大小写，例如可用于自动语音识别（ASR）输出或文本标点丢失的场景。此模型既可以直接作为通用越南语的标点恢复模型使用，也可以在特定领域文本上进一步微调以完成标点恢复任务。模型可以恢复以下标点：[. , : ? ]，还能恢复像 YouTube、MobiFone 这类单词的复杂大小写。

🚀 快速开始

下载文件

import os
import shutil
import sys
from huggingface_hub import snapshot_download
cache_dir = "./capu"
def download_files(repo_id, cache_dir=None, ignore_regex=None):
    download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
    if cache_dir is None or download_dir == cache_dir:
        return download_dir
    file_names = os.listdir(download_dir)
    for file_name in file_names:
        shutil.move(os.path.join(download_dir, file_name), cache_dir)
    os.rmdir(download_dir)
    return cache_dir
cache_dir = download_files(repo_id="dragonSwing/xlm - roberta - capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
sys.path.append(cache_dir)

示例代码

import os
from gec_model import GecBERTModel
model = GecBERTModel(
    vocab_path=os.path.join(cache_dir, "vocabulary"),
    model_paths="dragonSwing/xlm - roberta - capu",
    split_chunk=True
)
model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
# 始终返回输出列表。
# ['Theo đó, Thủ tướng dự kiến tiếp Bộ trưởng Nông nghiệp Mỹ Tom Wilsack, Bộ trưởng Thương mại Mỹ Gina Raimondo, Bộ trưởng Tài chính Janet Yellen, gặp gỡ Thượng nghị sĩ Patrick Leahy và một số nghị sĩ Mỹ khác.']
model("những gói cước năm g mobifone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời so với mạng bốn g thì tốc độ truy cập mạng 5 g mobifone được nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần")
# ['Những gói cước 5G MobiFone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời. So với mạng 4G thì tốc độ truy cập mạng 5G MobiFone được Nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần.']