语言:
- 越南语
标签:
- 大写转换
- 标点恢复
- 标记分类
许可协议: CC-BY-SA-4.0
数据集:
- oscar-corpus/OSCAR-2109
评估指标:
- 准确率
- 精确率
- 召回率
- F1值
✨ 越南语大写标点修复XLM-RoBERTa模型
这是一个基于XLM-RoBERTa微调的越南语标点恢复模型,训练数据来自OSCAR-2109数据集。
该模型可预测纯小写文本的标点符号和大写形式,典型应用场景包括语音识别(ASR)输出或其他丢失标点的文本。本模型可直接用于通用越南语的标点恢复,也可针对特定领域文本进行微调。
模型支持恢复以下标点符号——[. , : ? ]
同时能还原复杂单词的大写形式,如YouTube、MobiFone等。
🚋 使用指南
快速启用模型的两种方式:
- 从Hub下载文件
import os
import shutil
import sys
from huggingface_hub import snapshot_download
cache_dir = "./capu"
def download_files(repo_id, cache_dir=None, ignore_regex=None):
download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
if cache_dir is None or download_dir == cache_dir:
return download_dir
file_names = os.listdir(download_dir)
for file_name in file_names:
shutil.move(os.path.join(download_dir, file_name), cache_dir)
os.rmdir(download_dir)
return cache_dir
cache_dir = download_files(repo_id="dragonSwing/xlm-roberta-capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
sys.path.append(cache_dir)
- 调用示例代码
import os
from gec_model import GecBERTModel
model = GecBERTModel(
vocab_path=os.path.join(cache_dir, "vocabulary"),
model_paths="dragonSwing/xlm-roberta-capu",
split_chunk=True
)
model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
model("những gói cước năm g mobifone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời so với mạng bốn g thì tốc độ truy cập mạng 5 g mobifone được nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần")
本模型可处理任意长度的越南语文本
📡 训练数据
微调模型使用的产品评论数量统计:
🎯 准确率
基于10,000条保留测试样本的标签级性能分析:
标签 |
精确率 |
召回率 |
F1值 |
支持数 |
大写 |
0.89 |
0.90 |
0.89 |
56497 |
复合大写 |
0.93 |
0.83 |
0.88 |
480 |
句号 |
0.81 |
0.84 |
0.82 |
18139 |
逗号 |
0.69 |
0.75 |
0.72 |
22961 |
冒号 |
0.76 |
0.60 |
0.67 |
1432 |
问号 |
0.82 |
0.75 |
0.78 |
1730 |
无标点 |
0.99 |
0.99 |
0.99 |
475611 |