SbertPuncCase 是一个用于俄语的标点符号和大小写恢复模型,专为语音识别后的文本恢复设计。
下载量 2,731
发布时间 : 7/21/2022
模型简介
该模型能够为俄语文本添加句号、逗号和问号,并判断单词的大小写形式(全小写、首字母大写或全大写)。基于 sbert_large_nlu_ru 构建,训练数据来自访谈文本转写内容。
模型特点
标点符号恢复
能够自动添加句号、逗号和问号等基本标点符号
大小写恢复
能够判断单词的正确大小写形式(全小写、首字母大写或全大写)
语音识别优化
专门针对语音识别后的文本进行优化,处理全小写输入
俄语专用
专门为俄语文本设计,基于俄语预训练模型构建
模型能力
标点符号恢复
大小写恢复
俄语文本处理
使用案例
语音识别后处理
语音转文字标点恢复
将语音识别产生的无标点、全小写文本转换为规范的书面格式
恢复标点符号和正确的大小写形式
文本规范化
非规范文本处理
处理社交媒体或即时通讯中的非规范文本
生成符合书面语规范的文本
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文