零样本学习
Nal V40 Sdxl
其他
Nalgotic Dreams 是一个基于稳定扩散XL的文本生成图像模型,专注于生成高质量的动漫风格图像,特别是明亮、精细的插画风格女孩形象。
图像生成
英语
N
John6666
203
1
Magma 8B GGUF
MIT
Magma-8B是一个基于GGUF格式的图像文本到文本转换模型,适用于多模态任务处理。
图像生成文本
M
Mungert
545
1
Uzmi Gpt
Apache-2.0
GPT-2是由OpenAI开发的开源语言模型,基于Transformer架构,能够生成连贯的文本。
大型语言模型
英语
U
rajan3208
30
2
Arshgpt
MIT
Transformers 是一个由 Hugging Face 开发的开源库,提供多种预训练模型,用于自然语言处理任务。
大型语言模型
Transformers
A
arshiaafshani
69
5
Xlm Roberta Large Pooled Cap Media Minor
MIT
基于xlm-roberta-large模型微调的多语言文本分类模型,支持英语和丹麦语,专注于政治议程和媒体内容的分类任务。
文本分类
PyTorch
其他
X
poltextlab
163
0
Openvision Vit Small Patch8 384
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
多模态融合
O
UCSC-VLAA
21
0
Openvision Vit Small Patch16 224
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
图像增强
O
UCSC-VLAA
17
0
Openvision Vit Tiny Patch8 224
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
多模态融合
O
UCSC-VLAA
123
0
Openvision Vit Tiny Patch16 384
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
图像特征提取
O
UCSC-VLAA
19
0
Bart Large Empathetic Dialogues
该模型是一个基于transformers库的模型,具体用途和功能需要进一步的信息来确定。
大型语言模型
Transformers
B
sourname
199
1
Falcon H1 1.5B Deep Base
其他
Falcon-H1是由TII开发的高效混合架构语言模型,结合Transformer与Mamba架构,支持多语言任务
大型语言模型
Transformers
支持多种语言
F
tiiuae
194
3
Openbioner Base
MIT
OpenBioNER 是一款专为开放领域生物医学命名实体识别(NER)定制的轻量级 BERT 模型,仅需目标实体类型的自然语言描述即可识别未见过的实体类型,无需重新训练。
序列标注
PyTorch
英语
O
disi-unibo-nlp
210
1
Zero Mistral 24B
MIT
Zero-Mistral-24B是基于Mistral-Small-3.1-24B-Instruct-2503改进的纯文本模型,主要适配俄语和英语,移除了原版的视觉功能,专注于文本生成任务。
大型语言模型
Transformers
支持多种语言
Z
ZeroAgency
41
2
Xglm 564M
MIT
XGLM-564M 是一个多语言自回归语言模型,包含5.64亿参数,基于30种语言的平衡语料库训练,总计5000亿子词。
大型语言模型
支持多种语言
X
facebook
11.13k
51
Orpo Med V3
Apache-2.0
这是一个托管在Hugging Face Hub上的transformers模型,具体功能和用途需要进一步补充信息。
大型语言模型
Transformers
O
Jayant9928
2,852
3
THUDM.GLM 4 32B 0414 GGUF
GLM-4-32B-0414是由THUDM开发的大规模语言模型,具有320亿参数,适用于多种文本生成任务。
大型语言模型
T
DevQuasar
13.15k
5
Style 250412.vit Base Patch16 Siglip 384.v2 Webli
基于Vision Transformer架构的视觉模型,采用SigLIP(Sigmoid Loss for Language-Image Pretraining)训练方法,适用于图像理解任务。
图像分类
Transformers
S
p1atdev
66
0
Xlm Roberta Large Pooled Cap Minor
MIT
基于xlm-roberta-large微调的多语言文本分类模型,用于比较议程项目的次要主题代码分类
文本分类
PyTorch
其他
X
poltextlab
61
0
PURE
PURE是首个采用多模态大型语言模型(MLLM)作为主干网络来解决低级视觉任务的框架。
图像增强
P
nonwhy
326
1
Sam Vit Base
MIT
这是Facebook SAM模型(sam-vit-base)的改进版本,专为CVAT中的图像分割任务优化配置。
图像分割
支持多种语言
S
sajabdoli
184
0
Quantum STT
Apache-2.0
Quantum_STT 是一种先进的自动语音识别(ASR)和语音翻译模型,基于大规模弱监督训练,支持多种语言和任务。
语音识别
Transformers
支持多种语言
Q
sbapan41
100
1
Kok Basev2
Apache-2.0
Kok-Base 是一个多语言模型,支持英语、阿拉伯语和捷克语,适用于多种自然语言处理任务。
大型语言模型
Transformers
支持多种语言
K
moelanoby
195
1
Internvl2 5 HiMTok 8B
Apache-2.0
HiMTok是一个基于InternVL2_5-8B大型多模态模型微调的分层掩码标记学习框架,专注于图像分割任务。
图像生成文本
I
yayafengzi
16
3
Llama 3.1 8B AthenaSky MegaMix
Apache-2.0
通过MergeKit融合多个高质量模型的8B参数大语言模型,优化了推理、对话和创意生成能力
大型语言模型
Transformers
英语
L
ZeroXClem
105
2
Ibm Granite.granite Vision 3.2 2b GGUF
Granite Vision 3.2 2B 是 IBM 开发的一个视觉语言模型,专注于图像文本转文本任务。
图像生成文本
I
DevQuasar
211
1
Yoloe
YOLOE是一个高效、统一且开放的目标检测与分割模型,支持文本、视觉输入及无提示范式等多种提示机制,实现实时全能视觉感知。
目标检测
Y
jameslahm
40.34k
32
Distill Any Depth Small Hf
MIT
Distill-Any-Depth是一种基于知识蒸馏算法训练的SOTA单目深度估计模型,能够高效准确地进行深度估计。
3D视觉
Transformers
D
xingyang1
1,214
3
Illumiyume Anime Style Noobai Xl Nai Xl V10 Sdxl
其他
基于稳定扩散XL的动漫风格文本到图像生成模型,专注于高质量动漫角色创作
图像生成
英语
I
John6666
5,080
1
Bytedance Research.ui TARS 72B SFT GGUF
字节跳动研究团队发布的72B参数规模的多模态基础模型,专注于图像文本转文本任务
图像生成文本
B
DevQuasar
81
1
Allenai.olmocr 7B 0225 Preview GGUF
olmOCR-7B-0225-preview 是由 AllenAI 开发的一个基于 OCR 技术的图像文本转文本模型,旨在从图像中提取和识别文本内容。
大型语言模型
A
DevQuasar
239
1
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video-7B-hf 是一个基于视频的多模态模型,能够处理视频和文本输入,生成文本输出。
视频生成文本
Safetensors
英语
L
FriendliAI
30
0
Whisper Large V3 Turbo
MIT
Whisper large-v3-turbo 是 OpenAI 提出的自动语音识别和语音翻译模型,基于大规模弱监督训练,支持多种语言。
语音识别
Transformers
支持多种语言
W
Daemontatox
26
1
Qwen2.5 Dyanka 7B Preview
Apache-2.0
基于Qwen2.5架构的7B参数规模语言模型,通过TIES方法融合多个预训练模型而成
大型语言模型
Transformers
Q
Xiaojian9992024
1,497
8
Vit So400m Patch16 Siglip 512.v2 Webli
Apache-2.0
基于SigLIP 2的视觉Transformer模型,专为图像特征提取设计,适用于多语言视觉-语言任务。
文本生成图像
Transformers
V
timm
2,766
0
Vit So400m Patch16 Siglip 384.v2 Webli
Apache-2.0
基于SigLIP 2的视觉Transformer模型,专为图像特征提取设计,预训练于webli数据集
文本生成图像
Transformers
V
timm
2,073
0
Vit So400m Patch14 Siglip Gap 378.v2 Webli
Apache-2.0
基于SigLIP 2架构的视觉Transformer模型,使用WebLI数据集预训练,移除了注意力池化头并采用全局平均池化
图像分类
Transformers
V
timm
20
0
Vit So400m Patch14 Siglip 378.v2 Webli
Apache-2.0
基于SigLIP 2的视觉Transformer模型,专为图像特征提取设计,训练于webli数据集
文本生成图像
Transformers
V
timm
30
0
Vit Large Patch16 Siglip Gap 384.v2 Webli
Apache-2.0
基于SigLIP 2架构的视觉Transformer模型,采用全局平均池化(GAP)的变体,移除了注意力池化头,适用于图像特征提取任务。
文本生成图像
Transformers
V
timm
95
0
Vit Large Patch16 Siglip 512.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,专为timm设计,适用于视觉-语言任务
图像分类
Transformers
V
timm
295
0
Vit Giantopt Patch16 Siglip Gap 256.v2 Webli
Apache-2.0
SigLIP 2 ViT图像编码器,采用全局平均池化,移除了注意力池化头,专为timm设计
图像分类
Transformers
V
timm
17
0