许可证: mit
语言:
- 英文
库名称: transformers
任务标签: 自动语音识别
arXiv: https://arxiv.org/abs/2410.15608
月光模型
[博客] [论文] [安装指南] [播客]
这是由Useful Sensors训练并发布的自动语音识别(ASR)模型(月光模型)的模型卡片。
遵循模型报告模型卡片(Mitchell等人),我们提供了一些关于该自动语音识别模型的信息。更多关于这些模型如何训练和评估的信息可以在论文中找到。请注意,许多文本直接复制自OpenAI开发的Whisper模型的模型卡片,因为这两个模型用途相同,风险也相同。
使用方法
月光模型在Hugging Face 🤗 Transformers中受支持。要运行该模型,首先安装Transformers库。在此示例中,我们还将安装🤗 Datasets以从Hugging Face Hub加载玩具音频数据集,以及🤗 Accelerate以减少模型加载时间:
pip install --upgrade pip
pip install --upgrade transformers datasets[audio]
from transformers import MoonshineForConditionalGeneration, AutoProcessor
from datasets import load_dataset, Audio
import torch
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
model = MoonshineForConditionalGeneration.from_pretrained('UsefulSensors/moonshine-tiny').to(device).to(torch_dtype)
processor = AutoProcessor.from_pretrained('UsefulSensors/moonshine-tiny')
dataset = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
dataset = dataset.cast_column("audio", Audio(processor.feature_extractor.sampling_rate))
sample = dataset[0]["audio"]
inputs = processor(
sample["array"],
return_tensors="pt",
sampling_rate=processor.feature_extractor.sampling_rate
)
inputs = inputs.to(device, torch_dtype)
token_limit_factor = 6.5 / processor.feature_extractor.sampling_rate
seq_lens = inputs.attention_mask.sum(dim=-1)
max_length = int((seq_lens * token_limit_factor).max().item())
generated_ids = model.generate(**inputs, max_length=max_length)
print(processor.decode(generated_ids[0], skip_special_tokens=True))
模型详情
月光模型为语音识别任务训练,能够将英语语音音频转录为英语文本。Useful Sensors开发这些模型以支持其基于低成本硬件开发实时语音转录产品的业务方向。有2种不同大小和能力的模型,总结如下表。
大小 |
参数 |
仅英语模型 |
多语言模型 |
tiny |
27 M |
✓ |
|
base |
61 M |
✓ |
|
发布日期
2024年10月
模型类型
序列到序列ASR(自动语音识别)和语音翻译模型
论文与样本
论文 / 博客
模型用途
评估用途
这些模型的主要目标用户是希望在内存容量和计算资源严重受限的平台上部署英语语音识别系统的AI开发者。我们认识到,一旦模型发布,就无法限制仅“目标”用途的访问,也无法围绕什么是或不是安全使用制定合理的指导方针。
这些模型主要针对英语ASR任务进行训练和评估。它们可能表现出额外的能力,特别是在对某些任务(如语音活动检测、说话人分类或说话人分割)进行微调时,但在这些领域尚未进行稳健评估。我们强烈建议用户在特定上下文和领域中对模型进行稳健评估后再部署。
特别是,我们警告不要使用月光模型转录未经个人同意录制的录音,或声称将这些模型用于任何类型的主观分类。我们建议不要在高风险领域(如决策环境)中使用,因为准确性缺陷可能导致结果的明显缺陷。这些模型旨在转录英语语音,将模型用于分类不仅未经评估,而且不合适,特别是推断人类属性。
训练数据
这些模型在从互联网收集的20万小时音频及相应文本,以及HuggingFace上公开可用的数据集上进行训练。使用的开放数据集列在随附论文中。
性能与局限性
我们的评估显示,这些模型在标准数据集上比现有类似大小的ASR系统具有更高的准确性。
然而,像任何机器学习模型一样,预测可能包括音频输入中实际未说出的文本(即幻觉)。我们假设这是因为,鉴于其对语言的一般知识,模型在尝试预测音频中的下一个单词的同时也在尝试转录音频本身。
此外,模型的序列到序列架构使其容易生成重复文本,这可以通过束搜索和温度调度在一定程度上缓解,但无法完全消除。这种行为及幻觉可能在短音频片段或片段中单词部分被截断时更为严重。
更广泛的影响
我们预计月光模型的转录能力可用于改进辅助工具,特别是实时转录。基于月光模型构建的有益应用的实际价值表明,这些模型的不同性能可能具有实际的经济影响。
发布月光模型也存在潜在的双重用途问题。虽然我们希望该技术主要用于有益目的,但使ASR技术更易获取可能使更多行为者能够构建强大的监控技术或扩大现有监控工作,因为速度和准确性允许对大量音频通信进行经济实惠的自动转录和翻译。此外,这些模型可能具有某些开箱即用的识别特定个体的能力,这反过来带来了与双重用途和不同性能相关的安全问题。实际上,我们预计转录成本并不是扩大监控项目的限制因素。
引用
如果您受益于我们的工作,请引用我们:
@misc{jeffries2024moonshinespeechrecognitionlive,
title={Moonshine: Speech Recognition for Live Transcription and Voice Commands},
author={Nat Jeffries and Evan King and Manjunath Kudlur and Guy Nicholson and James Wang and Pete Warden},
year={2024},
eprint={2410.15608},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2410.15608},
}