实时处理

# 实时处理

Ultravox V0 5 Llama 3 2 1b GGUF

Ultravox v0.5是基于Llama-3 2.1B架构优化的音频文本转文本模型，专注于高效处理语音转写任务。

Mediapipe Selfie Segmentation Landscape

一个基于ONNX格式的轻量级人像分割模型，专门优化用于横向图像中的人物与背景分离。

Vitpose Base Simple

基于ViT架构的轻量级姿态估计模型，用于人体关键点检测

Coreml Sam2 Tiny

SAM 2 Tiny 是FAIR推出的图像与视频通用分割模型的Core ML版本，适配于移动端应用

Genrevim Music Detection DistilHuBERT

该模型是基于DistilHuBERT微调的音频分类模型，专门用于区分音乐与非音乐音频。

Resnet50 Facial Emotion Recognition

这是一个基于Apache-2.0许可证发布的AI模型，具体功能需要根据实际模型类型确定

大型语言模型

KhaldiAbderrhmane

这是一个使用Apache-2.0许可证的开源模型，具体信息需补充

大型语言模型

Yolov8n Handwritten Text Detection

基于YOLOv8的目标检测模型，专门用于检测手写文本内容

目标检测其他

Trocr Base Plate Number

一个用于识别车辆牌照的视觉模型示例，能够从图片中提取车牌号码。

Language Detector

基于openai/whisper-small微调的语言检测模型，在评估集上准确率达96.47%

Tiny Random Vits

基于Apache-2.许可证的开源模型，具体功能需根据实际模型确定

大型语言模型

Ssast Audioset Librispeech 16 16

该模型用于音频分类任务，能够对音频数据进行分类识别。

Ast Finetuned Speech Commands V2

基于AST架构的语音命令识别模型，专为网页端部署优化的ONNX格式版本

Pyannote Speaker Diarization Endpoint

基于pyannote.audio 2.0版本的说话人分割模型，用于自动检测和分割音频中的不同说话人

说话人处理

Segformer Finetuned Lane 10k Steps

基于SegFormer架构的轻量级车道线检测模型，在lane_master数据集上微调10,000步

Whitebox Cartoonizer

一个基于TensorFlow的SavedModel格式的白盒卡通化器模型，能够将真实图像转换为卡通风格。

Whisper Small ISSAI KSC 335RS V2

基于Whisper架构的小型语音识别模型，适用于特定领域的语音转文本任务

Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k

这是一个基于MIT许可证的图像转文本模型，能够将图像内容转换为文本描述。

图像生成文本

这是一个基于Apache-2.0许可证的开源模型，具体功能需要根据实际模型类型确定

大型语言模型

Unixcoder Base Unimodal

这是一个使用Apache-2.0许可证的开源模型，具体功能和应用领域需要进一步确认

大型语言模型

该模型是一个基于MIT许可证的开源模型，CER（字符错误率）为0.0019，表明其在特定任务上具有较高的准确性。

大型语言模型

Distilhubert Ft Keyword Spotting

基于DistilHuBERT架构的关键词识别模型，在superb数据集上微调，准确率达97.06%

Wav2vec2 Xls R Tf Left Right Trainer

基于facebook/wav2vec2-xls-r-300m微调的语音识别模型，支持左右声道处理

Minylm L3 Aug Sst2 Distilled

这是一个性能表现良好的模型，测试准确率达到91.17%，测试损失为0.241。

基于Transformer架构的中文预训练语言模型，适用于多种自然语言处理任务

大型语言模型

Speaker Diarization

基于pyannote.audio 2.1.1版本的说话人分割模型，用于自动检测音频中的说话人变化和重叠语音

说话人处理

Distil Wav2vec2 Adult Child Cls 37m

基于wav2vec 2.0架构的音频分类模型，用于区分成人和儿童语音

Transformers 英语

Xlm Roberta Base Finetuned Somali

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24