whisper-ner-v1开源模型 - 免费实现语音转录与开放类型实体识别

首页

Whisper Ner V1

由 aiola 开发

WhisperNER是一种能够同时进行语音转录和实体识别的新颖模型，支持开放类型的命名实体识别（NER）。

语音识别

Safetensors

支持多种语言开源协议:MIT #语音实体识别 #开放类型NER #多任务ASR

下载量 174

发布时间 : 9/23/2024

模型简介

WhisperNER是一个强大的基础模型，适用于带有NER的自动语音识别（ASR）下游任务，并可以通过在特定数据集上进行微调以提升性能。

模型特点

联合语音转录与实体识别

能够同时进行语音转录和实体识别，支持开放类型的命名实体识别（NER）。

开放类型NER支持

能够在推理时识别多样且不断变化的实体。

可微调基础模型

适用于带有NER的自动语音识别（ASR）下游任务，并可以通过在特定数据集上进行微调以提升性能。

模型能力

语音转录

命名实体识别

开放类型实体识别

使用案例

语音转文本与实体提取

会议记录与实体提取

将会议录音转换为文本并提取关键实体（如人名、公司名、地点等）。

提高会议记录的效率和可搜索性。

新闻音频分析

分析新闻广播音频，提取关键人物、组织和地点信息。

快速生成新闻摘要和实体索引。

🚀 Whisper-NER

Whisper-NER是一款创新模型，可实现语音转录和实体识别的联合处理。它支持开放式命名实体识别，能在推理时识别多样化且不断演变的实体。该模型旨在作为带有命名实体识别（NER）的自动语音识别（ASR）下游任务的强大基础模型，还可在特定数据集上进行微调以提升性能。

🚀 快速开始

演示地址：https://huggingface.co/spaces/aiola/whisper-ner-v1
论文：WhisperNER: Unified Open Named Entity and Speech Recognition
代码仓库：https://github.com/aiola-lab/whisper-ner

✨ 主要特性

支持语音转录和实体识别的联合处理。
能够进行开放式命名实体识别，可识别多样化且不断演变的实体。
可作为带有NER的ASR下游任务的强大基础模型，并可在特定数据集上微调以提升性能。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration

model_path = "aiola/whisper-ner-v1"
audio_file_path = "path/to/audio/file"
prompt = "person, company, location"  # comma separated entity tags
    
# load model and processor from pre-trained
processor = WhisperProcessor.from_pretrained(model_path)
model = WhisperForConditionalGeneration.from_pretrained(model_path)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

# load audio file: user is responsible for loading the audio files themselves
target_sample_rate = 16000
signal, sampling_rate = torchaudio.load(audio_file_path)
resampler = torchaudio.transforms.Resample(sampling_rate, target_sample_rate)
signal = resampler(signal)
# convert to mono or remove first dim if needed
if signal.ndim == 2:
    signal = torch.mean(signal, dim=0)
# pre-process to get the input features
input_features = processor(
    signal, sampling_rate=target_sample_rate, return_tensors="pt"
).input_features
input_features = input_features.to(device)

prompt_ids = processor.get_prompt_ids(prompt.lower(), return_tensors="pt")
prompt_ids = prompt_ids.to(device)

# generate token ids by running model forward sequentially
with torch.no_grad():
    predicted_ids = model.generate(
        input_features,
        prompt_ids=prompt_ids,
        generation_config=model.generation_config,
        language="en",
    )

# post-process token ids to text, remove prompt
transcription = processor.batch_decode(
    predicted_ids, skip_special_tokens=True
)[0]
print(transcription)