实时处理
Ultravox V0 5 Llama 3 2 1b GGUF
MIT
Ultravox v0.5是基于Llama-3 2.1B架构优化的音频文本转文本模型,专注于高效处理语音转写任务。
语音识别
U
ggml-org
421
1
Mediapipe Selfie Segmentation Landscape
Apache-2.0
一个基于ONNX格式的轻量级人像分割模型,专门优化用于横向图像中的人物与背景分离。
图像分割
M
onnx-community
45
3
Vitpose Base Simple
基于ViT架构的轻量级姿态估计模型,用于人体关键点检测
姿态估计
Transformers
V
onnx-community
31
3
Coreml Sam2 Tiny
Apache-2.0
SAM 2 Tiny 是FAIR推出的图像与视频通用分割模型的Core ML版本,适配于移动端应用
图像分割
C
apple
15
15
Genrevim Music Detection DistilHuBERT
该模型是基于DistilHuBERT微调的音频分类模型,专门用于区分音乐与非音乐音频。
音频分类
Transformers
G
MarekCech
61
0
Resnet50 Facial Emotion Recognition
Apache-2.0
这是一个基于Apache-2.0许可证发布的AI模型,具体功能需要根据实际模型类型确定
大型语言模型
Transformers
R
KhaldiAbderrhmane
50
3
Nl2sql 7b
Apache-2.0
这是一个使用Apache-2.0许可证的开源模型,具体信息需补充
大型语言模型
Transformers
N
DMetaSoul
47
1
Yolov8n Handwritten Text Detection
基于YOLOv8的目标检测模型,专门用于检测手写文本内容
目标检测
其他
Y
armvectores
546
9
Trocr Base Plate Number
Apache-2.0
一个用于识别车辆牌照的视觉模型示例,能够从图片中提取车牌号码。
文字识别
Transformers
T
ghanahmada
100
1
Language Detector
Apache-2.0
基于openai/whisper-small微调的语言检测模型,在评估集上准确率达96.47%
语音识别
Transformers
L
fitlemon
18
1
Tiny Random Vits
Apache-2.0
基于Apache-2.许可证的开源模型,具体功能需根据实际模型确定
大型语言模型
Transformers
T
echarlaix
1,835
0
Ssast Audioset Librispeech 16 16
该模型用于音频分类任务,能够对音频数据进行分类识别。
音频分类
Transformers
S
yangwang825
18
1
Ast Finetuned Speech Commands V2
基于AST架构的语音命令识别模型,专为网页端部署优化的ONNX格式版本
音频分类
Transformers
A
Xenova
15
0
Pyannote Speaker Diarization Endpoint
MIT
基于pyannote.audio 2.0版本的说话人分割模型,用于自动检测和分割音频中的不同说话人
说话人处理
P
KIFF
1,830
4
Segformer Finetuned Lane 10k Steps
其他
基于SegFormer架构的轻量级车道线检测模型,在lane_master数据集上微调10,000步
图像分割
Transformers
S
Efferbach
1,077
0
Whitebox Cartoonizer
CC
一个基于TensorFlow的SavedModel格式的白盒卡通化器模型,能够将真实图像转换为卡通风格。
图像生成
W
sayakpaul
71
22
Whisper Small ISSAI KSC 335RS V2
基于Whisper架构的小型语音识别模型,适用于特定领域的语音转文本任务
语音识别
Transformers
W
Shirali
83
1
Mscoco Finetuned CoCa ViT L 14 Laion2b S13b B90k
MIT
这是一个基于MIT许可证的图像转文本模型,能够将图像内容转换为文本描述。
图像生成文本
M
laion
21.02k
20
Ivila Row Layoutlm Finetuned S2vl V2
大型语言模型
Transformers
英语
I
allenai
92.04k
2
Bert Seg V2
Apache-2.0
这是一个基于Apache-2.0许可证的开源模型,具体功能需要根据实际模型类型确定
大型语言模型
Transformers
B
simonnedved
20
0
Unixcoder Base Unimodal
Apache-2.0
这是一个使用Apache-2.0许可证的开源模型,具体功能和应用领域需要进一步确认
大型语言模型
Transformers
U
microsoft
23
1
Roberta Base Trained 7epochs
Apache-2.0
基于Apache-2.0许可证的开源模型,具体功能需根据实际模型确定
大型语言模型
Transformers
R
Rustem
25
0
Trocr Captcha
MIT
该模型是一个基于MIT许可证的开源模型,CER(字符错误率)为0.0019,表明其在特定任务上具有较高的准确性。
大型语言模型
Transformers
T
tomofi
37
5
Wav2vec2 Xls R Tf Left Right Trainer
Apache-2.0
基于facebook/wav2vec2-xls-r-300m微调的语音识别模型,支持左右声道处理
语音识别
Transformers
W
hrdipto
30
0
Distilhubert Ft Keyword Spotting
Apache-2.0
基于DistilHuBERT架构的关键词识别模型,在superb数据集上微调,准确率达97.06%
音频分类
Transformers
D
anton-l
14
1
Minylm L3 Aug Sst2 Distilled
这是一个性能表现良好的模型,测试准确率达到91.17%,测试损失为0.241。
文本分类
Transformers
M
moshew
17
0
Hvila Block Layoutlm Finetuned Grotoap2
大型语言模型
Transformers
英语
H
allenai
108
0
Bert News
基于Transformer架构的中文预训练语言模型,适用于多种自然语言处理任务
大型语言模型
Transformers
B
dkhara
6
0
Distil Wav2vec2 Adult Child Cls 37m
Apache-2.0
基于wav2vec 2.0架构的音频分类模型,用于区分成人和儿童语音
音频分类
Transformers
英语
D
bookbot
15
2
Speaker Diarization
MIT
基于pyannote.audio 2.1.1版本的说话人分割模型,用于自动检测音频中的说话人变化和重叠语音
说话人处理
S
pyannote
910.93k
1,038
Bert Large Chinese
大型语言模型
中文
B
yechen
80
6
Hvila Block Layoutlm Finetuned Docbank
大型语言模型
Transformers
英语
H
allenai
214
1
Xlm Roberta Base Finetuned Somali
Apache-2.0
大型语言模型
Transformers
X
Davlan
81
0