AudioSangraha开源语音转文本模型 - 免费支持音频翻译与文本生成

首页

Audiosangraha Audio To Text

由 AqeelShafy7 开发

基于openai/whisper-small微调的语音转文本模型，支持音频翻译和文本生成任务。

语音识别

Transformers

开源协议:Apache-2.0 #语音转文本 #多语言翻译 #低资源优化

下载量 224

发布时间 : 2/1/2024

模型简介

本模型是基于openai/whisper-small在特定数据集上微调的版本，主要用于音频到文本的转换任务。

模型特点

高效音频处理

基于Whisper-small架构优化，能够高效处理音频转文本任务

微调优化

在特定数据集上进行微调，可能针对某些特定领域有更好表现

多任务支持

同时支持翻译和文本生成任务

模型能力

语音识别

音频翻译

文本生成

使用案例

语音转录

会议记录转录

将会议录音自动转换为文字记录

播客内容转录

将播客音频内容转换为文字稿

翻译服务

多语言音频翻译

将外语音频内容翻译为目标语言文本

训练损失	轮数	步数	验证损失	字错率（Wer）
0.1036	3.91	1000	0.2257	55.1779
0.007	7.81	2000	0.3071	52.3227

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Audiosangraha Audio To Text

模型简介

模型特点

模型能力

使用案例

🚀 AudioSangraha-Audio_to_Text

🚀 快速开始

📚 详细文档

训练过程

训练超参数

训练结果

框架版本

📄 许可证