低错误率

# 低错误率

Trocr Finetuned 20250422 125947

针对葡萄牙语文本优化的光学字符识别(OCR)模型，基于微软TrOCR基础模型微调

文字识别支持多种语言

Qaari 0.1 Urdu OCR VL 2B Instruct

Qaari 0.1 Urdu是一款专门为乌尔都语文本的光学字符识别（OCR）优化的模型，基于Qwen/Qwen2-VL-2B进行微调，在乌尔都语OCR能力上有显著提升。

Qari OCR 0.1 VL 2B Instruct

基于Qwen2 VL模型微调的阿拉伯语OCR模型，专为整页阿拉伯文本识别优化

Transformers 阿拉伯语

Fireredasr LLM L

FireRedASR是一系列支持普通话、中国方言和英语的开源工业级自动语音识别（ASR）模型，在公开的普通话ASR基准测试中实现了新的最先进水平（SOTA），同时具备出色的歌词识别能力。

语音识别支持多种语言

Vntl Llama3 8b V2 Imatrix Gguf

基于LLaMA3 Youko的qlora微调版本，专为日文视觉小说英译优化的8B参数模型

机器翻译支持多种语言

Vntl Llama3 8b V2 Gguf

基于LLaMA 3 Youko的qlora微调版本，专精日语视觉小说英译任务

机器翻译支持多种语言

Reverb Diarization V2

Reverb说话人日志V2是一个基于pyannote-audio的说话人日志模型，相比基准pyannote3.0模型在多个测试集上表现更优。

说话人处理

Wav2vec2 Large Lv60 Phoneme Timit English Timit 4k Simplified

基于facebook/wav2vec2-large-lv60在TIMIT数据集上微调的语音识别模型，专注于音素识别任务。

Transformers 英语

Trocr Base Printed License Plates Ocr

基于microsoft/trocr-base-printed微调的印刷体车牌OCR模型，在评估集上字符错误率为0.037

基于字节级微调模型的阿拉伯语精确标音系统，通过微调预训练模型实现阿拉伯文本发音符号的自动补全。

大型语言模型

Transformers 阿拉伯语

Wavlm Base 960h Asv19 Deepfake

基于微软WavLM-base微调的深度伪造音频检测模型，在ASVspoof 2019数据集上表现优异，准确率达99.79%

Belle Whisper Large V3 Zh

基于whisper-large-v3微调优化的中文语音识别模型，在多个中文语音基准测试中性能显著提升

Trocr Large Spanish

基于Transformer架构的印刷体西班牙语OCR模型，专为印刷字体优化，不支持手写体识别

图像生成文本

Transformers 支持多种语言

Trocr Base Printed License Plates Ocr

基于microsoft/trocr-base-printed微调的OCR模型，专门用于识别印刷体车牌号码。

Trocr Base Printed License Plates Ocr Timestamp

基于microsoft/trocr-base-printed微调的OCR模型，专门用于识别车牌和时间戳信息

Sinhala Ocr Model V3

该模型是基于Ransaka/sinhala-ocr-model微调的僧伽罗语OCR模型，主要用于识别僧伽罗语文本。

Wespeaker Voxceleb Resnet293 LM

基于ResNet293架构的说话人嵌入模型，经过大间隔微调优化，支持说话人识别、相似度计算和语音分割等任务

说话人处理英语

Whisper Large V3 German

基于Whisper Large v3的德语语音识别微调模型，针对德语语音处理和识别进行了优化

Transformers 德语

Trocr Base Printed Captcha Ocr

基于微软trocr-base-printed模型微调的验证码识别模型，专门用于处理印刷体文本的OCR任务

Whisper Base Japanese

本模型使用Common Voice、JVS和JSUT数据集对openai/whisper-base进行日语微调，适用于日语语音识别任务。

Transformers 日语

ArOCR是一个阿拉伯语光学字符识别(OCR)模型，能够将包含阿拉伯文本的图像转换为可编辑的文本格式。

Transformers 阿拉伯语

Trocr Handwritten Math

该模型能够将手写数学表达式的图像转换为对应的LaTeX序列，适用于数学公式识别和数字化处理。

Wav2vec2 Large Xlsr Japanese 0325 1200

这是一个基于facebook/wav2vec2-large-xlsr-53模型在日语语音识别任务上微调的自动语音识别(ASR)模型。

Transformers 日语

Wav2vec2 Xls R Adult Child Cls

基于XLS-R架构的音频分类模型，用于区分成人和儿童语音。

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24