Ultravox V0 5 Llama 3 2 1b GGUF
MIT
Ultravox v0.5是基于Llama-3 2.1B架构优化的音频文本转文本模型,专注于高效处理语音转写任务。
语音识别
U
ggml-org
421
1
Mediapipe Selfie Segmentation Landscape
Apache-2.0
一个基于ONNX格式的轻量级人像分割模型,专门优化用于横向图像中的人物与背景分离。
图像分割
M
onnx-community
45
3
Vitpose Base Simple
基于ViT架构的轻量级姿态估计模型,用于人体关键点检测
姿态估计
Transformers

V
onnx-community
31
3
Coreml Sam2 Tiny
Apache-2.0
SAM 2 Tiny 是FAIR推出的图像与视频通用分割模型的Core ML版本,适配于移动端应用
图像分割
C
apple
15
15
Genrevim Music Detection DistilHuBERT
该模型是基于DistilHuBERT微调的音频分类模型,专门用于区分音乐与非音乐音频。
音频分类
Transformers

G
MarekCech
61
0
Resnet50 Facial Emotion Recognition
Apache-2.0
这是一个基于Apache-2.0许可证发布的AI模型,具体功能需要根据实际模型类型确定
大型语言模型
Transformers

R
KhaldiAbderrhmane
50
3
Nl2sql 7b
Apache-2.0
这是一个使用Apache-2.0许可证的开源模型,具体信息需补充
大型语言模型
Transformers

N
DMetaSoul
47
1
Yolov8n Handwritten Text Detection
基于YOLOv8的目标检测模型,专门用于检测手写文本内容
目标检测
其他
Y
armvectores
546
9
Trocr Base Plate Number
Apache-2.0
一个用于识别车辆牌照的视觉模型示例,能够从图片中提取车牌号码。
文字识别
Transformers

T
ghanahmada
100
1
Language Detector
Apache-2.0
基于openai/whisper-small微调的语言检测模型,在评估集上准确率达96.47%
语音识别
Transformers

L
fitlemon
18
1
Tiny Random Vits
Apache-2.0
基于Apache-2.许可证的开源模型,具体功能需根据实际模型确定
大型语言模型
Transformers

T
echarlaix
1,835
0
Ssast Audioset Librispeech 16 16
该模型用于音频分类任务,能够对音频数据进行分类识别。
音频分类
Transformers

S
yangwang825
18
1
Ast Finetuned Speech Commands V2
基于AST架构的语音命令识别模型,专为网页端部署优化的ONNX格式版本
音频分类
Transformers

A
Xenova
15
0
Pyannote Speaker Diarization Endpoint
MIT
基于pyannote.audio 2.0版本的说话人分割模型,用于自动检测和分割音频中的不同说话人
说话人处理
P
KIFF
1,830
4
Segformer Finetuned Lane 10k Steps
其他
基于SegFormer架构的轻量级车道线检测模型,在lane_master数据集上微调10,000步
图像分割
Transformers

S
Efferbach
1,077
0
Whitebox Cartoonizer
CC
一个基于TensorFlow的SavedModel格式的白盒卡通化器模型,能够将真实图像转换为卡通风格。
图像生成
W
sayakpaul
71
22
Whisper Small ISSAI KSC 335RS V2
基于Whisper架构的小型语音识别模型,适用于特定领域的语音转文本任务
语音识别
Transformers

W
Shirali
83
1
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
这是一个基于MIT许可证的图像转文本模型,能够将图像内容转换为文本描述。
图像生成文本
M
laion
21.02k
20
Ivila Row Layoutlm Finetuned S2vl V2
大型语言模型
Transformers

英语
I
allenai
92.04k
2
Bert Seg V2
Apache-2.0
这是一个基于Apache-2.0许可证的开源模型,具体功能需要根据实际模型类型确定
大型语言模型
Transformers

B
simonnedved
20
0
Unixcoder Base Unimodal
Apache-2.0
这是一个使用Apache-2.0许可证的开源模型,具体功能和应用领域需要进一步确认
大型语言模型
Transformers

U
microsoft
23
1
Roberta Base Trained 7epochs
Apache-2.0
基于Apache-2.0许可证的开源模型,具体功能需根据实际模型确定
大型语言模型
Transformers

R
Rustem
25
0
Trocr Captcha
MIT
该模型是一个基于MIT许可证的开源模型,CER(字符错误率)为0.0019,表明其在特定任务上具有较高的准确性。
大型语言模型
Transformers

T
tomofi
37
5
Wav2vec2 Xls R Tf Left Right Trainer
Apache-2.0
基于facebook/wav2vec2-xls-r-300m微调的语音识别模型,支持左右声道处理
语音识别
Transformers

W
hrdipto
30
0
Distilhubert Ft Keyword Spotting
Apache-2.0
基于DistilHuBERT架构的关键词识别模型,在superb数据集上微调,准确率达97.06%
音频分类
Transformers

D
anton-l
14
1
Minylm L3 Aug Sst2 Distilled
这是一个性能表现良好的模型,测试准确率达到91.17%,测试损失为0.241。
文本分类
Transformers

M
moshew
17
0
Hvila Block Layoutlm Finetuned Grotoap2
大型语言模型
Transformers

英语
H
allenai
108
0
Bert News
基于Transformer架构的中文预训练语言模型,适用于多种自然语言处理任务
大型语言模型
Transformers

B
dkhara
6
0
Distil Wav2vec2 Adult Child Cls 37m
Apache-2.0
基于wav2vec 2.0架构的音频分类模型,用于区分成人和儿童语音
音频分类
Transformers

英语
D
bookbot
15
2
Speaker Diarization
MIT
基于pyannote.audio 2.1.1版本的说话人分割模型,用于自动检测音频中的说话人变化和重叠语音
说话人处理
S
pyannote
910.93k
1,038
Bert Large Chinese
大型语言模型
中文
B
yechen
80
6
Hvila Block Layoutlm Finetuned Docbank
大型语言模型
Transformers

英语
H
allenai
214
1
Xlm Roberta Base Finetuned Somali
Apache-2.0
大型语言模型
Transformers

X
Davlan
81
0
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文