Bart Large Teaser De V2
基于BART架构的大型德语文本处理模型,适用于多种自然语言处理任务
大型语言模型
Transformers

B
bettertextapp
123
0
Bart Large Paraphrase Generator En De V2
基于BART架构的大规模英德转述生成模型
机器翻译
Transformers

B
bettertextapp
121
0
Gemma 2 Llama Swallow 2b It V0.1
Gemma-2-Llama-Swallow系列是通过对gemma-2模型进行持续预训练构建的,显著增强了日文语言处理能力,同时保留原有英文能力。
大型语言模型
Transformers

支持多种语言
G
tokyotech-llm
61
1
LHM 1B
Apache-2.0
LHM是一个前馈式模型,可在数秒内从单张图像重建可动画的3D人体。
3D视觉
Safetensors
英语
L
3DAIGC
169
1
LHM 500M
Apache-2.0
LHM是一个前馈式模型,可在数秒内从单张图像重建可动画的3D人体。
3D视觉
英语
L
3DAIGC
132
4
De Wiki Mlm 13
基于未知数据集微调的语言模型,训练过程中使用了Transformers库
大型语言模型
Transformers

D
fpadovani
35
1
LHM
Apache-2.0
LHM是一个前馈模型,可在数秒内从单张图像重建可动画的3D人体。
3D视觉
英语
L
3DAIGC
22
21
Izanami Wav2vec2 Large
其他
基于大规模日本电视广播音频数据预训练的日语wav2vec2.0 Large模型
语音识别
日语
I
imprt
89
1
Kushinada Hubert Large
Apache-2.0
基于62,215小时日本电视广播音频数据预训练的日语HuBERT Large模型,用于语音特征提取
语音识别
日语
K
imprt
1,041
2
Kushinada Hubert Base
Apache-2.0
基于62,215小时日本电视广播音频数据预训练的日语语音特征提取模型
语音识别
日语
K
imprt
1,922
1
Instella 3B
其他
AMD基于Instinct MI300X GPU训练的30亿参数全开放语言模型家族,性能超越同规模开放模型
大型语言模型
Transformers

I
amd
3,048
34
Vit So400m Patch16 Siglip 512.v2 Webli
Apache-2.0
基于SigLIP 2的视觉Transformer模型,专为图像特征提取设计,适用于多语言视觉-语言任务。
文本生成图像
Transformers

V
timm
2,766
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers

S
google
26.12k
14
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers

S
google
4,416
8
Owls 4B 180K
OWLS是一套Whisper风格的模型,旨在帮助研究人员理解语音模型的扩展特性,支持多语言语音识别和翻译。
语音识别
其他
O
espnet
40
5
Llave 7B
Apache-2.0
LLaVE-7B是基于LLaVA-OneVision-7B模型的70亿参数多模态嵌入模型,具备文本、图像、多图像和视频的嵌入表示能力。
多模态融合
Transformers

英语
L
zhibinlan
1,389
5
Wav2vec2 Large Xls R 300m Ru
Apache-2.0
该模型是基于facebook/wav2vec2-xls-r-300m在common_voice_17_0数据集上微调的俄语自动语音识别(ASR)模型,词错误率(WER)为0.195。
语音识别
Transformers

W
NLPVladimir
56
1
Mt0 Xxl Mt Q4 K M GGUF
Apache-2.0
该模型是从bigscience/mt0-xxl-mt通过llama.cpp转换为GGUF格式的多语言文本生成模型,支持多种语言任务。
大型语言模型
支持多种语言
M
Markobes
14
1
C RADIOv2 G
其他
C-RADIOv2是NVIDIA开发的视觉特征提取模型,提供多种规格版本,适用于图像理解和密集处理任务。
图像嵌入
Transformers

C
nvidia
648
11
CLIP ViT H 14 Laion2b S32b B79k
MIT
这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型,擅长零样本图像分类和跨模态检索任务。
文本生成图像
C
ModelsLab
132
0
Videomaev2 Giant
VideoMAEv2-giant是一个基于自监督学习的超大规模视频分类模型,采用双掩码策略进行预训练。
视频处理
Safetensors
V
OpenGVLab
1,071
4
Videomaev2 Huge
VideoMAEv2-Huge是一个基于自监督学习的视频特征提取模型,在UnlabeldHybrid-1M数据集上进行了1200轮预训练。
视频处理
Safetensors
V
OpenGVLab
1,145
1
Videomaev2 Base
VideoMAEv2-Base是基于自监督学习的视频特征提取模型,采用双重掩码机制在UnlabeldHybrid-1M数据集上预训练。
视频处理
V
OpenGVLab
3,565
5
Longva 7B TPO
MIT
LongVA-7B-TPO是基于LongVA-7B通过时序偏好优化而来的视频-文本模型,在长视频理解任务中表现优异。
视频生成文本
Transformers

L
ruili0
225
1
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
C
recallapp
17
0
Reloc3r 512
Reloc3r是一个简洁高效的相机姿态估计框架,结合了预训练的双视角相对相机姿态回归网络与多视角运动平均模块。
姿态估计
R
siyan824
840
4
Aimv2 1b Patch14 224.apple Pt
AIM-v2是一个基于timm库的图像编码器模型,具有10亿参数规模,适用于图像特征提取任务。
图像分类
Transformers

A
timm
198
0
Sam2 Hiera Large.fb R1024 2pt1
Apache-2.0
基于HieraDet图像编码器的SAM2模型,专注于高效图像特征提取
图像分割
Transformers

S
timm
31
0
Eva Giant Patch14 Clip 224.laion400m
MIT
EVA CLIP模型是基于OpenCLIP和timm框架的视觉语言模型,支持零样本图像分类任务。
文本生成图像
E
timm
124
0
Eva02 Large Patch14 Clip 336.merged2b
MIT
EVA02 CLIP 是一个基于 CLIP 架构的大规模视觉-语言模型,支持零样本图像分类等任务。
文本生成图像
E
timm
197
0
Eva02 Large Patch14 Clip 224.merged2b
MIT
EVA CLIP模型是基于OpenCLIP和timm模型权重的视觉语言模型,支持零样本图像分类等任务。
图像分类
E
timm
165
0
Eva02 Enormous Patch14 Clip 224.laion2b Plus
MIT
EVA-CLIP是基于CLIP架构的大规模视觉-语言模型,支持零样本图像分类等任务。
文本生成图像
E
timm
54
0
Eva02 Enormous Patch14 Clip 224.laion2b
MIT
EVA-CLIP是一个基于CLIP架构的视觉-语言模型,支持零样本图像分类任务。
文本生成图像
E
timm
38
0
Vit Large Patch14 Clip 224.dfn2b
其他
基于CLIP架构的视觉变换器模型,专注于图像特征提取,由苹果公司发布。
图像分类
Transformers

V
timm
178
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基于CLIP架构的ViT-Huge图像编码器,由苹果公司发布的DFN5B-CLIP模型,适用于视觉特征提取任务。
图像分类
Transformers

V
timm
128
0
Vit So400m Patch14 Siglip Gap 384.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,采用全局平均池化处理图像特征
图像分类
Transformers

V
timm
96
0
Vit So400m Patch14 Siglip 224.webli
Apache-2.0
基于SigLIP的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers

V
timm
123
1
Vit Giant Patch14 Clip 224.laion2b
Apache-2.0
基于CLIP架构的视觉Transformer模型,专为图像特征提取设计,使用laion2B数据集训练
图像分类
Transformers

V
timm
71
0
Vit Base Patch16 Clip 224.laion2b
Apache-2.0
基于CLIP架构的视觉Transformer模型,仅包含图像编码器部分,适用于图像特征提取任务
图像分类
Transformers

V
timm
4,460
0
Convnext Large Mlp.clip Laion2b Ft Soup 320
Apache-2.0
基于CLIP架构的ConvNeXt-Large图像编码器,在LAION-2B数据集上微调,支持320x320分辨率图像特征提取
图像分类
Transformers

C
timm
173
0
- 1
- 2
- 3
- 4
- 5
- 6
- 9
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文