音频转文本

# 音频转文本

Ultravox V0 5 Llama 3 2 1b GGUF

Ultravox v0.5是基于Llama-3 2.1B架构优化的音频文本转文本模型，专注于高效处理语音转写任务。

Gemma 3 4b It Q4 0

Gemma 3 4B Instruct 是 Google 开发的一个 40 亿参数的大语言模型，专注于文本生成和理解任务。

大型语言模型

Whisper Large V3 Turbo Quantized.w4a16

基于openai/whisper-large-v3-turbo的INT4权重量化版本，支持高效音频转文本任务

Transformers 英语

Speechless Llama3.2 V0.1 I1 GGUF

这是对Menlo/Speechless-llama3.2-v0.1模型进行加权/重要性矩阵量化的结果，提供多种量化版本

大型语言模型支持多种语言

Whisper Large V3.w4a16

这是openai/whisper-large-v3的量化版本，采用INT4权重量化和FP16激活量化，适用于vLLM推理。

Transformers 英语

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1

该模型是基于wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2数据集上微调的自动语音识别模型，主要用于歌唱语音识别任务。

Wav2vec2 Russian

基于wav2vec2架构的俄语语音识别模型，识别结果可通过配套文本纠错网络进行后处理

Wav2vec2 300m Teste4

基于facebook/wav2vec2-xls-r-300m在common_voice数据集上微调的语音识别模型

Wav2vec2 Base 10k Voxpopuli Ft Pl

基于VoxPopuli语料库10K未标注数据预训练，并在波兰语转录数据上微调的Wav2Vec2语音识别模型

Transformers 其他

Wav2vec2 Base 10k Voxpopuli Ft Sk

基于VoxPopuli语料库10K未标注数据预训练，并在斯洛伐克语转录数据上微调的语音识别模型

Transformers 其他

Wav2vec2 Base 10k Voxpopuli Ft Fi

基于Facebook Wav2Vec2基础模型，在VoxPopuli语料库的10K未标注子集上预训练，并在芬兰语转录数据上微调的自动语音识别模型。

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24