Openvision Vit Huge Patch14 224
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
多模态融合
O
UCSC-VLAA
27
2
Florence 2 Large DOTA V1.0 Lmmrotate
MIT
LMMRotate是一个针对旋转目标检测任务微调的大型多模态语言模型,特别适用于航拍图像分析。
图像生成文本
TensorBoard

英语
F
Qingyun
17
1
Aimv2 3b Patch14 224.apple Pt
AIM-v2是一个高效的图像编码器模型,兼容timm框架,适用于计算机视觉任务。
图像分类
Transformers

A
timm
50
0
Paligemma2 10b Pt 896
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出
图像生成文本
Transformers

P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2是Google推出的升级版视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出。
图像生成文本
Transformers

P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
3,412
45
Aimv2 Large Patch14 336 Distilled
AIMv2是基于多模态自回归目标预训练的视觉模型系列,在多模态理解基准测试中表现优异
图像分类
A
apple
37
3
Ssast Small Patch Audioset 16 16
Bsd-3-clause
基于AudioSet和Librispeech预训练的音频分类模型,采用视觉变换器架构处理音频频谱图
音频分类
Transformers

S
Simon-Kotchou
2,408
1
Pmc Vit L 14
基于OpenAI的ViT-L-14模型,使用PMC_OA_beta和roco数据集进行微调的视觉语言模型,专注于生物医学领域的文本到图像任务
文本生成图像
英语
P
ryanyip7777
523
4
Segformer B0 Finetuned Food
Apache-2.0
基于 Transformers 库的图像分割模型,支持多种图像分割任务。
图像分割
Transformers

英语
S
prem-timsina
20
5
Autotrain Vision Tcg 40463105224
这是一个通过AutoTrain训练的多类别图像分类模型,在验证集上表现出色,所有评估指标均达到1.0。
图像分类
Transformers

A
micazevedo
16
0
Bloomz 7b1
Openrail
BLOOMZ-7B1 是一个多语言、多任务的大规模语言模型,支持超过40种语言和多种编程语言,适用于文本生成、情感分析等多种自然语言处理任务。
大型语言模型
Transformers

支持多种语言
B
bigscience
27.35k
143
Wav2vec2 Xlsr 53 Espeak Cv Ft
Apache-2.0
该模型是基于wav2vec2-large-xlsr-53预训练模型在CommonVoice数据集上微调的多语言音素识别模型,支持多种语言的音素标签识别。
语音识别
Transformers

W
facebook
315.39k
31
Wav2vec2 Lv 60 Espeak Cv Ft
Apache-2.0
该模型是基于Wav2Vec2-Large-LV60预训练模型,在CommonVoice数据集上进行微调,用于多语言音素识别。
语音识别
Transformers

其他
W
facebook
18.77k
43
Mt5 Small
Apache-2.0
mT5是T5模型的多语言变体,支持101种语言,基于mC4语料库进行预训练,适用于多语言文本生成和理解任务。
大型语言模型
支持多种语言
M
google
139.42k
149
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文